基于多层次特征提取的胶囊网络文本分类研究.docx

上传人:b****6 文档编号:7915071 上传时间:2023-05-12 格式:DOCX 页数:21 大小:45.31KB
下载 相关 举报
基于多层次特征提取的胶囊网络文本分类研究.docx_第1页
第1页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第2页
第2页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第3页
第3页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第4页
第4页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第5页
第5页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第6页
第6页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第7页
第7页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第8页
第8页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第9页
第9页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第10页
第10页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第11页
第11页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第12页
第12页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第13页
第13页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第14页
第14页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第15页
第15页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第16页
第16页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第17页
第17页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第18页
第18页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第19页
第19页 / 共21页
基于多层次特征提取的胶囊网络文本分类研究.docx_第20页
第20页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

基于多层次特征提取的胶囊网络文本分类研究.docx

《基于多层次特征提取的胶囊网络文本分类研究.docx》由会员分享,可在线阅读,更多相关《基于多层次特征提取的胶囊网络文本分类研究.docx(21页珍藏版)》请在冰点文库上搜索。

基于多层次特征提取的胶囊网络文本分类研究.docx

基于多层次特征提取的胶囊网络文本分类研究

基于多层次特征提取的胶囊网络文本分类研究*

余本功1,2朱晓洁1张子薇1

 

摘要:

(1.合肥工业大学管理学院合肥230009;

2.合肥工业大学过程优化与智能决策教育部重点实验室合肥230009)

【目的】为提高现有的浅层文本分类模型特征抽取能力,自底向上分层级地提取文本信息,从而提高文本分类效果。

【方法】本文提出了一种基于全局特征和高层次特征获取的文本分类模型(MFE-CapsNet),首先该模型利用双向门控循环单元(BiGRU)提取上下文信息,并引入权值注意力(Attention)编码前后隐层向量,从而提高序列模型特征表示质量。

并结合胶囊网络利用动态路由获得高层次聚合后的局部信息,构建MFE-CapsNet模型,进行文本分类的对比实验。

【结果】实验结果表明,本文提出的MFE-CapsNet模型在三个不同领域的中文数据集上F1值分别达到96.21%、94.17%、94.19%,对比其他分类方法最少分别提升1.28%,1.49%,0.46%。

【局限】实验仅在三种语料上进行验证。

【结论】MFE-CapsNet模型利用改进的胶囊网络能够更加全面深层次的挖掘文本语义特征,提高文本分类性能。

关键词:

文本分类;双向门控循环单元;注意力机制;胶囊网络DOI:

10.11925/infotech.2020.1273

TheMulti-levelFeatureExtractionCapsuleNetworkModelforTextClassificationResearch

YUBen-gong1,2,ZHUXiao-Jie1,ZHANGZi-Wei1

(1.SchoolofManagement,HefeiUniversityofTechnology,Hefei230009,China;(2.KeyLaboratoryofProcessOptimization&IntelligentDecision-making,Ministryof

Education,HefeiUniversityofTechnology,Hefei230009,China)Abstract:

[Objective]Inordertoimprovethefeatureextractioncapabilitiesoftheexistingshallowtextclassificationmodels,thispaperadoptsastructuredmethodtoextracttextinformationhierarchicallyfrombottomtotop,soastoimprovethetextclassificationeffect.[Methods]Thispaperproposesatextclassificationmodel(MFE-CapsNet)basedonglobalandhigh-levelfeatureacquisition.First,themodelusesbidirectionalgatedrecurrentunit(BiGRU)Extractthecontextinformation,andintroducetheattentioncodinghiddenlayervectortoimprovethefeatureextractionabilityofthesequencemodel.Wecombinethecapsulenetworkandusedynamicroutingtoobtainhigh-levelaggregatedlocalinformationbuildanMFE-CapsNetmodel,

 

本文系国家自然科学基金项目“基于制造大数据的产品研发知识集成与服务机制研究”(项目编号:

71671057)和过程优化与智能决策教育部重点实验室开放课题的研究成果之一。

andconductcomparativeexperimentsontextclassification.

[Results]TheexperimentalresultsshowthattheF1valueoftheMFE-CapsNetmodelproposedinthispaperreaches96.21%,94.17%,and94.19%ontheChinesedatasetsinthreedifferentfieldsrespectively,Comparedwithotherclassificationmethods,theincreasewasatleast1.28%,1.49%,and0.46%respectively.

[Limitations]Theexperimentisonlyverifiedonthreecorpora.

[Conclusions]TheMFE-CapsNetmodelusestheimprovedcapsulenetworkalgorithmstructuretomorecomprehensivelyanddeeplyminethesemanticfeaturesoftextandimprovetheperformanceoftextclassification.

Keywords:

Textclassification;BiGRU;Attention;Capsulenetwork

 

1引言

随着互联网技术的发展和移动社交网络平台的普及,各大新闻网站、社交媒体、电子邮件等新媒体平台产生的文本信息呈指数式增长,这些文本信息具有较强的时效性,且隐藏着潜在的经济价值。

例如对电商用户评论文本进行观点挖掘和情感分析,企业可以分析客户偏好、了解用户需求,并及时发现企业在运营过程中的不足[1],改进相关产品和客户服务,对提升企业竞争力具有重要作用,能为不同企业带来巨大的价值。

有效的组织和管理文本信息是开展分析工作的基础,面对非结构化的海量文本,传统的人工处理方式耗时费力,因此需要设计出一种能够快速有效处理文本数据的方法。

文本分类的应用场景非常广泛,涵盖自动标签、情感分析、垃圾邮件过滤、垃圾评论过滤等任何需要自动归档文本的场合。

近年来,深度学习利用词向量的分布式表示构建模型的输入[2],主流的深度学习模型,如卷积神经网络和循环神经网络在文本分类任务上都取得了不错的效果。

胶囊网络(CapsNet)作为一个视觉实体[3],解决了卷积网络提取局部特征的局限性,起初在计算机视觉领域取得了较好的训练结果[4]。

随着深度学习的发展胶囊网络逐渐运用到自然语言处理领域,比如关系识别[5]、情感分析[6]等具体任务中。

同时胶囊网络也为文本分类提供了新的研究基础,国内外诸多学者研究胶囊网络在文本分类任务上的性能并不断改进模型,提升分类结果[7–9]。

本文采用BiGRU获取文本全文信息,通过引入attention机制突出关键文本信息来提高文本全局特征表示,利用改进的胶囊网络获得高层次特征信息,从而在使用较少参数减少网络训练时间的同时,提高文本分类效果。

2相关研究

文本分类是自然语言处理的主要任务之一,现有的文本分类方法分为以朴素贝叶斯(NB)[10]、支持向量机(SVM)[11]等为代表的传统机器学习算法和以CNN和RNN等为代表的深度学习算法。

以机器学习为代表的文本分类方法通常采用TF-IDF、N-gram等方法得到特征向量,并利用NB、SVM等进行分类。

由于机器学习算法具有无法很好表征文本上下文信息等局限性,深度学习算法开始被广泛应用到文本分类任务上。

Kim等[12]提出适用于文本分类的CNN模型,利用Word2vec模型预训练词向量,并通过CNN的卷积、最大池化和全连接操作在多个任务中达到了较好的效果。

Zhang等[13]将卷积神经网络应用于字符级别的文本分类,以文

本的字符编码序列作为输入,通过深层神经网络输出文本分类结果。

卷积神经网络只能提取局部语义信息,与CNN相比循环神经网络更适用于序列文本特征提取,其中LSTM的研究更为广泛。

Liu等[14]提出了三种基于LSTM的多任务学习架构,该架构的文本序列模型用来探究不同任务之间的信息共享机制,并在多个文本分类任务上取得了较好的分类结果。

循环神经网络的另一个变种是GRU,与LSTM设置的输入门、输出门和遗忘门不同,GRU组合了输入们和遗忘门,构造更加简单,使用较少的参数加快了训练数据的速度。

朱茂然等[15]利用BiGRU结合层次注意力[16]以识别句子级别和文档级别的比较关系。

Tang等[17]提出了一种利用BiGRU对文档进行全局特征表示的情感分类模型,该模型分别通过卷积神经网络和循环神经网络得到句子表示,经过池化等操作后输入到BiGRU中得到全局特征表示,结果表明循环网络相比卷积神经网络在情感分类任务的特征表示上取得了较好的实验结果。

深度学习算法具有可迁移的特性,比如CNN通过卷积滤波器对RGB图像的像素参数进行卷积运算,并通过池化层来缩减模型的大小以增加训练速度,这些最初运用在图像领域的识别模型也能很好的运用在自然语言处理上,但CNN无法考虑到局部特征之间的层次关系,为此2017年由Sabour等[4]提出胶囊网络用来改善CNN特征提取的局限性,通过主胶囊和数字胶囊之间用动态路由机制更新来得到高层级的实体表示,实验表明经过训练的胶囊网络在MNIST数据集上达到了比之前模型更好的分类性能。

Zhao等[18]将胶囊网络运用于文本分类,构建了Capsule-A和Capsule-B两种架构,结果表明采用并行的卷积滤波窗口可以学习更全面的文本信息,且文本分类效果优于CNN、LSTM。

冯国明等[19]利用传统的词向量表示方法将胶囊网络应用于中文文本分类,验证了胶囊网络在处理长短文本上的优越性,且证明了相较于CNN模型,胶囊网络模型收敛速度更快。

赵琪等[20]分别用循环网络和胶囊网络提取全局和局部信息构建文本特征矩阵,在文本相似度任务上取得了较好的效果。

胶囊网络无法选择性地关注关键信息,为此Lei等[21]在胶囊网络中加入了类似感知机的阈值注意力,以捕获重要特征,并对比了注意力在卷积层前后使用的情况,结果表明将注意力放在卷积层之前使用便于结合位置特征为单词分配权重,能获得更好的效果。

卷积神经网络主要通过卷积运算获取局部特征,而卷积运算无法提取局部特征之间的层次关系。

胶囊网络改善了卷积神经网络特征提取的局限性,不同胶囊层之间通过转换矩阵得到对应的预测向量,动态路由通过迭代更新耦合系数从而确定上下胶囊层之间的连接强度,进而提取高层次的空间语义特征。

针对文本的上下文信息,本文采用双向GRU来获取全局语义特征,考虑到序列模型存在长期记忆问题,通过引入权值注意力为隐藏序列分配词语权重,来提高文本表示的质量。

综上分析,本文提出了一种基于多层次特征提取的胶囊网络文本分类模型MFE-CapsNet(amulti-levelfeatureextractioncapsulenetworkmodelfortextclassfication)。

多层次即表示为基于BiGRU-attention机制的全局特征获取和基于CapsNet高层次的局部特征获取,该模型首先通过双向GRU序列模型捕获文本前后隐藏层信息,并在胶囊网络获取局部特征之前结合单词的位置特征为文本序列分配不同的权重,进一步突出关键信息,低层胶囊的输出通过动态路由发送给高层胶囊,进一步获取特征表示,从而提高文本分类的效果。

3MFE-CapsNet模型

MFE-CapsNet模型的文本分类框架如图1所示,MFE-CapsNet模型由四部分组成:

输入层、全局特征获取、高层次特征获取和输出层。

输入层使用预先训练好的Word2vec模型对输入文本进行词嵌入以获得文本数据的词嵌入矩阵,然后将词嵌入矩阵输入到双向GRU网络层来获取上下文语义信息,采用权值注意力对上下文信息给予不同的关注,来获得全局特征,再通过胶囊网络层进行高层次的特征获取,最终将得到的特征表示通过输出层获取概率最大的分类标签。

 

waRK×2V

w

bRB×d

wjRD×d×d

Routing

Dense

DP

Softmax

C

B

V3

V2

V1

 

GRU

 

GRU

 

GRU

GRU

 

ht*αt

Attention

外观漂亮大气

rediction

整体质感不错

卷积层主胶囊层文本胶囊层

输入层

全局特征获取

高层次特征获取输出层

 

3.1输入层

图1模型框架图

Figure1.ModelFrameDiagram

输入层通过构建词嵌入矩阵来得到模型的输入。

本文采用Word2vec的skip-gram模型对输入文本进行预训练,首先对输入的文本进行清洗、去除停用词、去重、分词等文本预处理操作,得到输入语句S={x1,x2,...,xL},为保持词向

e

量矩阵维度一致,本文将句子长度设置为L。

设变换矩阵W∈Rde×∣Z∣,其中d是词嵌入维度,∣Z∣是词汇表大小,通过变换矩阵计算每个单词对应的嵌入向量,即:

ei=Woi

(1)

其中e∈Rde,o∈R∣Z∣为单词x对应的one-hot向量,从而得到文本嵌入矩阵

iii

E=[e1,e2,...,eL]且E∈RL×de。

3.2全局特征获取

本层将文本特征表示输入到分别含有V个隐藏单元的前向和后向门控循环单元(GRU)中,用于获取文本全局语义信息,再接一个权值注意力层,对隐藏单元分配权重。

GRU能够捕捉文本序列的长距离信息,t时刻前向的GRU只能捕获t时刻之前的文本信息,但文本中常存在转折、过渡等语句,需要从整体来考虑文本表达的内容。

因此本文采用BiGRU处理前向和后向数据,使得模型能够学习到更多的上下文信息,为使BiGRU模型能从句子序列中区分出重要信息,本文通过对BiGRU隐藏层的输出引入权值注意力,从而更好地为重要信息分配权重。

全局特征获取模型结构如图2所示。

从图2可以看出BiGRU模型由两层反向的GRU单元序列构成,前向GRU用于获取从左到右的文本信息,反向GRU用于获取从右到左的文本信息。

将t时刻BiGRU隐藏层的前向输出表示为ht,反向输出表示为ht,通过拼接ht和ht得到BiGRU在t时刻的隐藏层输出ht[22,23]。

 

α1

α2

αn

Attention

h1h2

hn

Forward

h

(1)h

(1)h

(1)

GRU

12n

Backward

h

(2)h

(2)hn

(2)

e1

e2

en

GRU12

图2全局特征获取模型结构图

Fig2.GlobalFeatureAcquisitionModelDiagram

本文使用简单的前馈神经网络来计算ht的注意力得分,权值at数值在0-1范围内,且总和为1,计算公式如

(2)(3)所示[24]:

c=tanh(Wth+b)

ttt

α=exp(ct)

(2)

tT

∑exp(ci)

i=1

(3)

以往的研究多利用权值at对隐藏层进行加权求和得到分类向量,本文利用at为ht分配权重,得到综合全局特征信息的文本矩阵H'并将其传入胶囊网络对特征做进一步提取。

计算公式如(4)(5)所示:

t

t

t

h'=α*h

(4)

 

3.3

12n

高层次特征获取

H'=⎡⎣h',h',...,h'⎤⎦

(5)

一个胶囊是一组神经元,这些神经元具有特定类型实体的实例化参数值,表示为活动向量,胶囊网络通过聚类思想综合各个特征来代替卷积网络的池化操作[8]。

双向GRU层和权值注意力层得到了全局特征信息,为了得到更高层级的局部特征,在此引入胶囊网络来提取局部特征信息,提升分类表示能力。

胶囊网络层由卷积层,主胶囊层和文本胶囊层构成[4,18]。

(1)卷积层

卷积层通过卷积滤波器提取输入序列H'∈RL⨯2V在不同位置的n-gram特征,

K⨯2V

卷积层的卷积滤波器Wa∈R,滤波器的高度K是滑过一个句子时的n-gram大

小,宽度为2V。

卷积层有B个滤波器,步长为1。

设mi为滤波器W与序列窗口

aa

h

'

i:

i+k-1

生成的第i个特征映射,计算方法如公式(6)所示[18]:

mi=f(h'⊗W+b)

ai:

i+k-1a1

(6)

其中f表示非线性ReLU激活函数,⊗表示卷积运算,b1为偏置项,记M为

产生的特征映射矩阵,则M=[

m,m,..].∈,Rm(L-K+1)

⨯。

且a∈{1,2,...,B},

12B

a

m∈R(L-K+1)。

(2)主胶囊层

i

为得到实例的特征表示,胶囊网络采用矢量输出代替卷积网络的标量输出以

保存实例化参数。

滤波器Wb

∈RB⨯d在不同的向量M

∈RB

上滑动,

i

i∈{1,2,...-,L+}1,生成的胶囊向量为u,计算方法如公式(7)所示[18]:

ui=squash(Mi⊗Wb+b2)

(7)

i

其中u∈Rd,d是胶囊的维度,滤波器在每个n-gram向量上产生一列特征映射u∈R(L-K+1)⨯d。

主胶囊层有C个滤波器,步长为1,因此共产生(L-K+1)⨯C个d维胶囊。

(3)动态路由

主胶囊层输出的是一个向量,通过挤压函数(squash)将他的长度缩减为1,所有的主胶囊通过权重矩阵运算得到对应的预测向量,并通过协议路由机制输出到所有可能的文本胶囊,文本胶囊输出向量vj计算方法如公式(8)所示:

sj+ε

2

sj

vj=squash(sj)=

(8)

其中vj通过非线性的挤压函数计算获得,ε设置为1e-7,胶囊网络利用挤压函数确保短向量被压缩到几乎为零的长度,而长向量被压缩到略小于1的长度。

对所有的预测向量uˆji进行加权求和得到文本胶囊的输入sj,其中cij是由迭代动

态路由过程确定的耦合系数,表示主胶囊与文本胶囊之间的连接概率。

sj和uˆji计

算公式如(9)(10)所示:

sj=∑cijuˆji

i

uˆji=Wjui

(9)

(10)

j

jijij

其中ui为主胶囊的输出,它乘以共享权重矩阵W∈RD⨯d⨯d得到对应的预测向量uˆ∈Rd,其中D为文本胶囊的个数。

通过计算预测向量uˆ与输出向量v之间的一致性来迭代更新权重bij,胶囊i与高一层中所有胶囊间的耦合系数cij总和为1。

bij和cij计算公式如(11)(12)所示:

bij=bij+uˆjigvj

exp(bij)

(11)

cij=

∑exp(bij)

j

(12)

整个动态路由算法流程如图3所示。

v1

v2

v3

s3

bij

u1

u2

u3

u2|3

u2|2

u1|3

u1|2

u3|3

u3|2

s2

s1

u3|1

u2|1

u1|1

VjSquash

SjCij

 

cij

uj|i

 

3.4输出层

Wj

ui

图3动态路由算法流程图

Figure3.FlowChartofDynamicRoutingAlgorithm

得到高层次局部特征的文本信息以后,最终将特征向量输入到全连接Dense层进行分类,激活函数为softmax,分类器得到每个类别对应的概率,文本分类选择类别概率最大的标签作为预测结果。

4实验验证

本文实验数据统计如表1所示。

汽车数据来自汽车之家网站通过爬虫技术获

得口碑评论文本,其中汽车评论为正向、负向2分类情感数据;电信投诉[25]为4分类数据,分别为业务规则、运营管理、宣传推广、通讯问题;新闻数据来自今日头条网站,爬取的新闻标题6分类短文本数据,分别为文化、娱乐、体育、财

经、房产、汽车。

各数据文本长度分布在5词到200词之间且每类样本数据分布较为均匀。

实验中随机取每类数据集的80%作为训练集,20%作为测试集。

表1数据

Table1Data

数据集

标签

样本量

汽车评论

正向

14513

负向

14482

 

电信投诉

业务规则

4171

运营推广

4304

宣传推广

4977

通讯问题

9243

 

头条新闻

文化

1060

娱乐

1568

体育

1540

财经

1093

房产

700

汽车

1433

4.1实验设置

实验均采用pycharm集成开发环境,编程语言为python3.7,运行内存8GB,处理器为Intel(R)Core(TM)i7-4500UCPU@1.80GHz2.40GHz,实验搭建的capsule采用Keras实现,此外为避免过拟合,本文实验根据EarlyStopping

()函数检测验证集损失,主要参数如下表2所示。

表2实验参数设置

Table2ExperimentalParameterSettings

实验参数

参数值

词嵌入维度

300

GRU隐藏单元

128

胶囊数量

10

胶囊维度

16

路由迭代次数

5

优化器

Adam

batchsize

64

epoch

20

dropout

0.25

4.2评价指标

本文实验采用分类问题常用的评估指标:

准确率Accuracy,精确率Precision,召回率Recall以及衡量精确率和召回率之间的综合性指标F1分数。

计算公式如(13)至(16)所示。

Acc=

TP+TN

 

TP+TN+FP+FN

(13)

=

PTP

TP+FP

=

RTP

TP+FN

(14)

(15)

F=2⨯P⨯R

(16)

1P+R

其中TP表示真阳性,即预测为类别正,实际为类别正;FP表示假阳性,即预测为类别正,实际为类别负;FN为假阴性即预测为类别负、实际为类别正;TN为真阴性即预测为类别负、实际为类别负。

4.3实验结果与分析

(1)

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2