基于软模糊粗糙集模型的多标签文本分类.docx

资源描述

基于软模糊粗糙集模型的多标签文本分类.docx

《基于软模糊粗糙集模型的多标签文本分类.docx》由会员分享，可在线阅读，更多相关《基于软模糊粗糙集模型的多标签文本分类.docx（21页珍藏版）》请在冰点文库上搜索。

基于软模糊粗糙集模型的多标签文本分类.docx

基于软模糊粗糙集模型的多标签文本分类

内容提要随着互联网技术的迅猛发展，电子文档很多需要被标记为多个类标签，即划分到多个类别范畴中。

当前，对多标签文本分类的研究主要针对特征的选取和分类算法。

本文借鉴处理不确定性问题的软模糊粗糙集模型，将其应用于多标签文本的分类问题。

通过将多标签文本语料根据文档频率进行特征提取，采用TF-IDF特征表示方法，将特征词集表示成向量空间模型的形式，使数据更加结构化。

同时，基于粗糙集理论，采用了软模糊粗糙集模型，并对其加以改进，使其具有处理多标签问题的能力。

然后利用这种模型对文本进行类别的划分，得到每个测试文档的类标签集合。

最后采用多标签分类特有的评价标准对分类结果进行评估。

关键词软模糊粗糙集，多标签，文本表示，分类算法

1引言

随着网络信息传播的高效性以及人们对电子文档使用的频繁性，各类论坛、门户网站、电子商务网站，以及近年发展起来的微博等，都处于蓬勃发展的状态。

同时，各类电子文档已成为这些网络信息传播的有效载体。

然而，现实世界中，很多电子文档的内容都是包含多个主题类别的，从文本分类的角度来看，就是文本的多标签问题。

面对各类微博网站的蓬勃发展，微博短文本内容与日俱增，更加严峻的任务需要我们来解决。

由于微博内容的复杂性，主题的多样性，用户兴趣的广泛性，当我们需要对这类网络文本数据的主题进行分析处理，为得到用户的关注类型及偏好提供帮助时，首先需要研究这类多标签文本的分类问题。

对于一篇微博、博客或是新闻文档，考虑它的主题类别时，可能会认为它谈论的是政治方面的内容，但它却延伸到军事或是经济方面的内容。

在对这类文本进行分类时，就需要为它标定多个类别标签，然后再对它进行分析处理。

文本分类技术对于大量文档的归类问题提供了很好的推动作用。

因此，研究多标签文本分类问题具有非常重要的现实意义。

当前，对于多标签分类，大多数是理论算法的研究。

关于分类方法，主要有两种方式，一是问题的转换，二是算法的适应性。

大多数情况下，多标签文本分类算法都是用在英文文本语料上。

现今网络上的中文电子文档等数据中也存在着大量需要被当作多标签问题来解决的文本语料。

因此，能够从网络上的电子文档中抽取大量的多标签文本语料，用于对中文文本的多标签分类研究，这对自然语言的学习研究是必要的。

粗糙集理论已经在特征选择、属性约简、规则学习等实际应用中取得了很好的实际效果。

大量实验表明，基于模糊粗糙集的软模糊粗糙集模型在处理噪声和错误标记的样本方面具有很好的效果。

本文通过对软模糊粗糙分类器的改进，使其扩展为可以处理多标签分类问题的模型，并将其应用于中文多标签文本分类中，拓宽了粗糙集理论在自然语言处理领域的应用。

2相关工作

文本分类是自然语言处理的一个重要分支领域，它通过分析文本内容并运用统计学方法加以处理，使得计算机能够对待分类文档实现自动划分到若干个较合适的类别中的目的，从而达到便于文本组织管理、智能检索以及信息过滤等应用的结果。

随着电子文本信息量的急剧增长，文本内容的多样化，只能确定文本单一类别的单标签学习已经难以满足人们对分类的需求。

因此，多标签文本分类以其特有的灵活性与实用性吸引了大多数研究学者的注意力。

近年来，多标签分类作为多标记学习中的一个重要问题，越来越受到研究学者的关注。

Tsoumakas等人[1]将现有的多标签分类算法归结为两类：

算法适应方法和问题转化方法。

典型的算法适应方法有AdaBoost.MH算法[2]、人工神经元网络[3]、Boosting算法[4]等。

典型的问题转化方法有：

LP（LabelPowerset）算法[5]、BR（BinaryRelevance）算法[16]、RAKEL（Randomk-labelsets）算法[6]等。

一些学者已经对粗糙集理论进行了较为深入的研究，提出了软粗糙集、软模糊粗糙集等概念。

为了能够好的解决模糊粗糙集模型对噪声敏感的问题，胡清华等人[7][8]在软间隔SVM的启发下，将基于软阈值的抗噪方式引入到模糊粗糙集模型中，给出了软距离的概念，提出了软模糊粗糙集模型，并基于软模糊下近似隶属度设计了一种单标签的分类模型，被称为软模糊粗糙分类器。

由于软模糊粗糙分类器是通过取得待分类样本对某一类别的下近似隶属度，从中选取具有最大隶属度的类标签来标定该样本的类别，对多标签分类来说，将该模型做一定的改造，赋予隶属度合适的阈值，即可把这种针对单标签数据的分类模型改造为可以对多标签数据进行分类的有效分类模型。

当前，粗糙集理论在文本分类方面的应用，大多数是利用粗糙集在属性约简方面的优越性。

卢娇丽、郑家恒等曾利用粗糙集理论对属性优越的约简特性将其应用于文本分类方面[9]，并取得了很好的效果。

但由于只是针对单标签文本的分类，限制了粗糙集的应用范围。

安爽[10]在其博士论文中，以稳健的软模糊粗糙集理论为基础，将其应用于太阳耀斑预报模型的研究。

鉴于软模糊下近似隶属度的特殊性，同时，考虑到多标签分类的实用性，本文将软模糊粗糙集理论应用于文本分类中，给出了一种基于软模糊粗糙集模型的多标签文本分类算法。

3文本结构化表示

3.1文本预处理

在文本信息处理中通常可以采用多种粒度的特征，但在文本分类中，普遍采用基于词的文本特征选择方法，其分类效果通常要好于字和短语。

由于中文语言的特殊性，需要对中文文档进行分词处理，本文使用中科院ICTCLAS分词软件对全部文档进行分词。

分词结果以文本形式存储。

3.2特征提取

首先，对分词后的文本建立停用词表，去除停用词，结果仍以文本形式存储。

经过去除停用词等步骤的处理后，文本已经得到了初步的降维。

然而，为了得到好的分类效果，需要从这些词集中选出具有较好区分性和代表性的词作为分类特征集，从而达到对特征集缩减降维的效果。

现在需要对这些文档词集进行特征提取。

特征选择的方法有很多，常用的方法有：

文档频率（DF）、信息增益（IG）、

统计量法（CHI-2）和互信息法（MI）等[11]。

信息增益、互信息等特征选择的方法都是与类别相关的，而本文研究的多标签文本分类中，文本的类别是多个的而不是单一的，由于本文使用的DF特征选择方法简单，不受类别影响，因此它比较适用于多标签文本的研究。

根据文档频率的特征选择方法，归纳所有文档的分词结果，会得到文档集中所有词的文档频率信息，将这些词按照频率大小排序，去掉在文档中出现很少次数的词。

选取出现频率较高的部分词作为文本分类过程中的特征项。

这样，减小了特征噪声对分类结果的影响。

3.3权重表示

特征权重通常用来界定特征项在文档表示中的代表性和重要性。

文本分类中特征权值计算方法有：

布尔权重、绝对词频（TF）权重、TF-IDF权重等[12]。

本文采用文本分类中常用的TF-IDF权重表示方法对所有文档的特征词进行表示[13]。

TF-IDF权重不仅考虑特征词在一篇文本中出现的频次，也考虑了它在所有文本中的频率。

其计算方法见公式

（1）-

（2）。

（1）

（2）

其中，wij是特征词tj在文档Dj中的权重，tfij为特征词tj在文本Dj中出现的频率，nj表示包含特征项的文档在整个文档集中的频率，N为文档总数。

3.4文本表示

文本特征表示是文本分类的基础，指将所有文档中的不同文本以及特征项用模型进行表示。

文本分类中常用的两种文本表示模型为布尔模型（（BooleanMode）和向量空间模型（VSM）[14]。

由于VSM对文本的表示形式效果好，且具有广泛的应用，本文采用VSM对文本进行表示。

整个文档集的表示见下图1：

图1文档集表示形式

其中，矩阵D的每一行表示一篇文档，每一列表示一个特征项，每一个值表示对应特征在相应文档中的权值，权值越大，表示该特征项在这篇文档中的相对重要程度越大。

通过文本的预处理，将非结构化的文本表示为结构化的数据，即可将这些数据用于分类器的训练。

4软模糊粗糙集模型

4.1软模糊粗糙集

软模糊粗糙集理论将软间隔SVM中选取软阈值的思想引入模糊粗糙集理论中，提出了一种不同于原有的计算样本最近距离方法的软距离的概念[8]。

定义1给定一个样本实例x和一个样本实体集

，x和Y之间的软距离被定义为

（3）

其中

是

与

之间的距离函数，C是惩罚因子，

是满足条件

的样本数量。

图2给出了一个确定软距离的例子。

假定样本x属于类1，其他样本属于类2，用Y表示该样本集。

如果把y1当作一个噪声样本并忽略它，SD（x，Y）应该是d2。

因此要有一个惩罚项来判定需要忽略多少个噪声样本。

如果忽略一个样本，d（x，yj）将会减去C。

对于所有的候选距离d（x，yj），取

作为x和Y之间的软距离。

也就是说，距离d‘（x，yj）是惩罚了所有被忽略样本之后的最大值。

关于参数C的选取，参见4.3节。

图2软距离示意图

在软距离的基础上，软模糊粗糙集的定义如下：

定义2把U作为一个非空论域，R是U上的一个模糊等价关系，且F（U）是U的模糊幂集。

F∈F（U）的软模糊上下近似被定义为

（4）

其中，

（5）

C是一个惩罚因子，m是在计算

时被忽略的样本的数量，n是计算

时被忽略的样本的数量。

如果集合A是一个清晰集，那么样本x对于A的软模糊下近似的隶属度就表示为

（6）

其中，

（7）

显然，

等于样本x到U-A的软距离。

4.2软模糊粗糙分类器

胡清华等人在上述软模糊下近似定义的基础上设计了一个稳健的分类器[8]，可以用来解决单标签分类问题。

它的原理概括为：

计算一个待分类样本对于每个类的软模糊下近似隶属度的值。

给定一个具有k个类的训练样本集和一个待分类样本x。

首先，假定x属于每个类。

计算出样本x对于k类的软模糊下近似隶属度的值,然后将x划分到最大隶属度的类别中。

用公式表示为

（8）

其中，

是x对于类

的软模糊下近似隶属度。

算法描述如下：

输入：

训练样本集

，测试样本集

；

输出：

每个测试样本xi’的类别classi。

Step1：

计算类别个数；

Step2：

对于每个测试样本xi’∈X’，做如下处理：

（1）对每个类classj∈Y（Y={y1,y2,...,yk}），计算xi’与其异类中每个样本的距离，得到候选距离。

（2）对得到的候选距离排序，再根据公式（3）计算类classj对应的软距离。

（3）由公式（6）-（7）可知，

（1）中的得到的xi’对异类样本的软距离的值与其对应的下近似隶属度的值相等。

于是得到样本xi’对每个类的软模糊下近似隶属度。

（4）选取隶属度取最大值时对应的类标签classt并将其返回，即可得到样本xi’的类别。

Step3：

重复step2直到得到每个测试样本的类标签。

4.3参数设置

由4.1节中的图2可以看出，软模糊粗糙集中惩罚因子C的值对其稳健性具有重要意义。

对于参数的设置在文献[8]中给出了一种方法。

假定以一个样本x为例，给出以该样本为球心的软超球的信任度f。

当以x为球心计算软超球的信任度时，如果其值大于或等于f，那么当信任度等于f时，软超球与硬超球的半径的差比上软超球中少数几个异类样本的个数，比值即为以样本x为球心得到的C的值。

同时，也确保了软模糊下近似的信任度。

对于一个含有n个样本的数据集，取以每个样本为球心计算的C的平均值，即可得到这个数据集的参数C的值。

对于本文中的多标签数据集，通过将多标签数据转化为多个二分类数据集来选取每个类的参数。

BR方法对于不同的类会有不同的参数值，可由公式（9）得出。

由SFRC改造后的算法通过取各参数的加权平均值作为它的惩罚因子C的值，权值为每个类中的标签数占所有标签的比重，可由公式（10）得出。

计算参数C的公式如下：

（9）

（10）

其中，L为标签总数，wi为类i的权值。

本文实验中选取软模糊下近似的可信度大于或等于95%，即软超球中的样本错误率小于5%。

5多标签分类模型的构建

5.1多标签学习

现有的分类学习中，大部分是对单标签数据的研究。

然而，在某些实际应用中，一个训练样本往往可以归属于多个类，即一个标签的集合

。

这样的数据称为多标签（multi-label）数据。

假定D为一个多标签数据集，其中包含|D|个样本。

表示训练样本集，

表示该样本集中的样本所属类标签的集合，其中，n表示训练样本总数，m表示标签总数。

那么，数据集D可以表示为：

，其中，xi∈X，

，xi为一个多标签样本，Yj为该样本对应的类标签的集合。

多标签数据集在文献[16]中已给出了详细说明。

5.2基于问题转换的多标签分类模型的构建

问题转换的分类方法的主要思想是，将每一个多标签样本（xi,Yi）处理成|Yi|个单标签数据（xi,yi），其中，yi∈Yi，然后再利用已有的分类模型对转化后的单标签数据集进行分类，将会得到每个测试样本的一个标签的集合。

本文采用Binaryrelevance（BR）方法对数据进行转换。

它训练了|L|个二分类器，每个分类器只划分L中的一个类别，|L|表示类标签总数。

它将原有的多标签数据集转化为|L|个只存在两个类别的单标签数据集Dp。

如果转化后的单标签数据样本Dxi的类标签集合Yi中包含yi，则将其记为“1”，否则将其记为“0”。

对于一个多标签样本，BR方法输出的集合中的标签是由|L|个基分类器输出中标签为“1”的类标签组成的。

通过对处理后的多标签文本数据进行转换，使用4.2节中给出的单标签分类算法训练学习若干二分类器，就构成了一种基于软模糊粗糙集模型的多标签分类器。

5.3基于算法适应的多标签分类模型的构建

算法适应的分类方法的主要思想是，通过对已有算法的改进，使之具有直接处理多标签数据的能力，结果以一个类标签集合的形式给出，集合中的标签即为该样本所属的类别。

本文通过对现有的处理单标签数据的软模糊粗糙集模型进行改造，将其用于多标签文本的分类处理。

对于现有的软模糊粗糙集模型，其样本的软模糊下近似隶属度是依据待分类样本与异类中样本之间的软距离得出的。

与软模糊粗糙分类器的原理相同，需要计算一个待分类样本相对于各个类的软模糊下近似隶属度的值。

假定一个多标签数据集共有|L|个类标签，样本xi是待分类样本，Yi表示该样本所属的类标签集合。

得到xi的标签集的过程如下：

Step1：

输入一个多标签数据集。

对其类标签的表示形式进行处理，使得每个类标签中，“1”表示样本属于该类别，“0”表示不属于。

Step2：

先假定多标签样本xi属于每个类，根据软模糊下近似隶属度的计算方法，可以得出|L|个样本xi对于每个类的下近似隶属度的值。

这些隶属度是对样本xi隶属于每个类的重要性的度量。

Step3：

给出一个界限，划分出对样本xi有着较高的贡献度的类别。

Step4：

输出这些类别的集合，就是样本xi的类标签集Yi。

Step5：

对每个样本重复2~4步，即可得到所有样本的类标签集合。

公式表示如下：

（11）

其中，

表示样本

的隶属度的界限值。

对于界限值的选取，给出两种方法。

一种是给定一个固定的阈值。

用

表示类别相关度，将每个隶属度的值转换后用

表示，

。

首先，假定最大隶属度的相关度为1，则其他所有类的隶属度与该最大值的比值，即为每个类的相关度。

然后设定一个阈值（如90%），大于这个阈值的，则判定该样本属于相应的类别，将xi对应的标签集中的位置置“1”，否则判定为不属于，将其置“0”。

考虑到每个样本的特殊性，总体阈值的选择可能对部分样本不适用。

因此，给出了另一种可以考虑到每个样本特殊性的阈值选取方法。

即直接取这|L|个下近似隶属度的期望值Mi，以此作为类别判定界限。

如果一个样本相对于类yj的下近似隶属度的值大于Mi，则判定该样本属于类yj，否则判定为不属于类yj。

6数据准备与评价指标

6.1数据准备

实验数据使用从网络上搜集的微博、博客、新闻等文档构成的1000篇文本语料，其中包含10个类别，分别为：

科技、体育、经济、军事、国际、政治、健康、饮食、电子、娱乐。

每篇文档至少包含两个类别信息。

将所有文档平均分成4份（每份250篇文档），每次实验都从中选取三份作为训练集，一份作为测试集，做四次交叉验证，结果取四次实验的平均值。

表1给出了每个训练集中文档类别的统计信息。

表1多标签文本训练集的统计信息

训练集

文档

标签数数

TrainSet1

TrainSet2

TrainSet3

TrainSet4

676

680

676

677

6.2多标签分类的评价指标

在多标签分类中，由于每个测试样本对应的类别不再是单一的，因此，其性能评价指标与传统的单标签分类有所不同。

有效的评估方法也是文本分类的一个重要过程。

多标签分类器有多种评价指标[17]，本文采用常用的六种指标对所使用的多标签分类器的性能作出评价[2][15][16]。

假设S是一个多标签测试数据集，S={（x1,Y1）,（x2,Y2）,…,（xs,Ys）}，包含了S个多标签样本（xi,Yi），i=1…s，

。

把H当作一个多标签分类器，

表示由分类器H预测的样本xi的标签集。

（1）基于实例的精度匹配度量表示为：

（12）

这是一个非常严格的评价方法，因为当测试样本的预测标签集中多一个标签或者少一个标签，都会被判别为错误。

（2）Schapire和Singer[2]在2000年提出了HammingLoss的评价指标，该指标重在考虑样本在单个类别中的分类误差，即原应出现在该样本的标签集中的的类不在标签集中，而不该出现的却在标签集中这样的情况，该指标取值越小表示分类器的性能越好。

它的定义如下：

（13）

其中，Δ表示两个集合的对称差分，相当于布尔逻辑中的异或（XOR）操作。

（3）Godbole和Sarawagi于2004年提出了多标签精度测量标准，表示形式如下：

（14）

它是通过对每个样本真实的和预测的标签集的交集与并集大小的比值的宏平均来度量的，结果越大表示分类性能越好。

下面三种指标是从传统的文本分类领域中的评价指标查准率、查全率以及F值度量所派生出的，文献[15]曾使用过这样的评价指标。

（4）Precision考虑了一个标签集中准确预测的标签在原始预测的标签集中所占的比重，计算公式如下：

（15）

（5）Recall考虑了一个标签集中准确预测的标签在真实标签集中所占的比重，计算公式如下：

（16）

（6）F值的度量方式是准确率（Precision）和召回率（Recall）的一种权衡表示，常用于信息检索领域。

对于文本分类也是一种很好的评估指标。

F值度量的表示形式如下：

（17）

7实验结果及分析

在第3节对文本预处理后得到的文本结构化表示和第5节构建的分类模型的基础上，本节通过实验，采用BR方法构建的SVM和SFRC两种多标签分类器，以及由算法适应方法构建的ML_SFRC分类器得出实验结果。

所有实验结果均取四次交叉实验的平均值，以保证数据集对分类性能的稳定性。

在实验结果的基础上，对基于软模糊粗糙集模型改造后的两种分类器进行比较分析。

7.1特征项数目对分类结果的影响

文本分类中，特征词的选取对分类结果是有影响的。

为了得到更好的分类效果，本次实验分别选取文档频率较高的前400、600、800、1000个特征词作为特征项，采用BR_SFRC和ML_SFRC中以期望值作为界限的ML_SFRC_Mean两种分类器得出实验结果。

分类性能仅以精度匹配度量和海明损失、F值三个指标作为参考。

表2选取不同数目的特征词时BR_SFRC分类器的分类结果

特征数

指标

400

600

800

1000

ExactMatch

0.6060

0.5350

0.4780

0.4220

HammingLoss

0.1006

0.1228

0.1387

0.1563

F-measure

0.7605

0.7058

0.6664

0.6215

表3选取不同数目的特征词时ML_SFRC_Mean分类器的分类结果

特征数

指标

400

600

800

1000

ExactMatch

0.6000

0.5240

0.4710

0.4200

HammingLoss

0.1003

0.1217

0.1381

0.1563

F-measure

0.7583

0.7067

0.6678

0.6223

由表2-表3中结果可以看出，特征词数量为400时得到的结果最好。

因此，后续的实验中我们采用文档频率统计结果中前400个特征词作为向量空间模型中的特征项。

7.2分类算法对分类结果的影响

文本分类的实验效果与分类算法的选取有关。

SVM是一种常用的分类模型[17]，文中实验采用SVM以及5.2节中构建的BR_SFRC多标签分类模型和5.3节中构建的ML_SFRC多标签分类模型对多标签文本进行分类。

分类性能以6.2节中给出的六种多标签分类的评价指标表示。

表4基于问题转换的BR方法下的多标签分类器的分类结果

算法

指标

SVM

SFRC

ExactMatch

0.6280

0.6060

HammingLoss

0.0537

0.1006

Accuracy

0.7957

0.7173

Precision

0.9229

0.7756

Recall

0.8154

0.7563

F-measure

0.8475

0.7605

由表4可以看出，在BR方法下，使用SVM分类器得到的分类结果中各项指标均优于SFRC。

表5算法适应方法下的ML_SFRC多标签分类器在选取不同阈值时的分类结果

算法

指标

ML_SFRC

90%

92%

94%

96%

98%

Mean

ExactMatch

0.2990

0.3510

0.3870

0.3090

0.6000

HammingLoss

0.5128

0.4373

0.3588

0.2760

0.1988

0.1003

Accuracy

0.4630

0.5141

0.5577

0.5842

0.5606

0.7143

Precision

0.4811

0.5489

0.6234

0.7047

0.7702

0.7806

Recall

0.9694

0.9392

0.8924

0.8174

0.6827

0.7507

F-measure

0.5589

0.6033

0.6425

0.6704

0.6574

0.7583

由表5可以看出，基于算法适用得到的ML_SFRC中，界限取期望值时得到的分类结果优于给定一个固定阈值时的结果。

7.3结果分析

从实验数据结果进行分析，分为以下几种情况：

（1）在特征选取方面，并不是特征词越多分类效果越好。

判断特征词集合选择的是否合理，主要看所选词是否具有类别标识性。

能够将文档归为某一类别，或是由于其中出现了一个具有很强的代表性的词，或是由于一个词在它标识的类别中的频率很高。

由表2-表3可以看出，选取文档频率较高的前400个特征词，使得分类结果较好，说明这些词的类别标识性相对较高。

（2）从多标签分类方法上看，BR方法由于没有考虑到每个样本所属标签之间的关系，往往会对其泛化性能有所影响。

少部分测

展开阅读全文