文本挖掘田林玉Word格式.docx

资源描述

文本挖掘田林玉Word格式.docx

《文本挖掘田林玉Word格式.docx》由会员分享，可在线阅读，更多相关《文本挖掘田林玉Word格式.docx（23页珍藏版）》请在冰点文库上搜索。

文本挖掘田林玉Word格式.docx

1.1.2文本挖掘的概述

文本挖掘涵盖多种技术,包括信息抽取,信息检索,自然语言处理和数据挖掘技术。

它的主要用途是从原本未经使用的文本中提取出未知的知识，但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。

文本挖掘在商业智能、信息检索、生物信息处理等方面都有广泛的应用。

例如，客户关系管理，自动邮件回复，垃圾邮件过滤，自动简历评审，搜索引擎等等。

2.2文本挖掘的过程

（1）文本准备阶段是对文本进行选择、净化和预处理的过程，用来确定文本型信息源以及信息源中用于进一步分析的文本。

具体任务包括词性的标注、句子和段落的划分、信息过滤等。

（2）特征标引是指给出文本内容特征的过程，通常由计算机系统自动选择一组主题词或关键词可以作为文本的特征表示。

（3）词频矩阵将维就是自动从原始特征集中提取出部分特征的过程，一般通过两种途径：

一是根据对样本集的统计分析删除不包含任何信息或只包含少量信息的特征；

二是将若干低级特征合成一个新特征。

（4）知识模式的提取是发现文本中的不同实体、实体间概念关系以及文本中其他类型的隐含知识的过程。

（5）知识模式评价阶段的任务是从提取出的知识模式集合中筛选出用户感兴趣的、有意义的知识模式。

（6）知识模式输出的任务是将挖掘出来的知识模式以多种方式提交给用户。

文本挖掘可以完成不同文档的比较，以及文档重要性和相关性排列，或者找出多文档的模式及趋势。

2.3文本挖掘技术

文本挖掘不但要处理大量的结构化和非结构化的文档数据,而且还要处理其中复杂的语义关系,因此,现有的数据挖掘技术无法直接应用于其上。

对于非结构化问题,一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘,由于数据非常复杂,导致这种算法的复杂性很高;

另一条途径就是将非结构化问题结构化,利用现有的数据挖掘技术进行挖掘,目前的文本挖掘一般采用该途径进行。

对于语义关系,则需要集成计算语言学和自然语言处理等成果进行分析。

我们按照文本挖掘的过程介绍其涉及的主要技术及其主要进展。

2.3.1数据预处理技术

预处理技术主要包括Stemming（英文）/分词（中文）、特征表示和特征提取。

与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有结构。

此外,文档的内容是人类所使用的自然语言,计算机很难处理其语义。

文本信息源的这些特殊性使得数据预处理技术在文本挖掘中更加重要。

（1）分词技术

在对文档进行特征提取前,需要先进行文本信息的预处理,对英文而言需进行Stemming处理,中文的情况则不同,因为中文词与词之间没有固有的间隔符（空格）,需要进行分词处理。

目前主要有基于词库的分词算法和无词典的分词技术两种。

基于词库的分词算法包括正向最大匹配、正向最小匹配、逆向匹配及逐词遍历匹配法等。

这类算法的特点是易于实现,设计简单;

但分词的正确性很大程度上取决于所建的词库。

因此基于词库的分词技术对于歧义和未登录词的切分具有很大的困难。

杨斌等在分析了最大匹配法的特点后,提出了一种改进的算法。

该算法在允许一定的分词错误率的情况下,能显著提高分词效率,其速度优于传统的最大匹配法。

邹涛等采用了基于词典的正向逐词遍历匹配法,取得了较好的效果。

基于无词典的分词技术的基本思想是:

基于词频的统计,将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大,在频率超过某个预先设定的阈值时,就将其作为一个词进行索引。

这种方法能够有效地提取出未登录词。

（2）特征表示

文本特征指的是关于文本的元数据,分为描述性特征（如文本的名称、日期、大小、类型等）和语义性特征（如文本的作者、机构、标题、内容等）。

特征表示是指以一定特征项（如词条或描述）来代表文档,在文本挖掘时只需对这些特征项进行处理,从而实现对非结构化的文本处理。

这是一个非结构化向结构化转换的处理步骤。

特征表示的构造过程就是挖掘模型的构造过程。

特征表示模型有多种,常用的有布尔逻辑型、向量空间模型（VectorSpaceModel,VSM）、概率型以及混合型等。

W3C近来制定的XML,RDF等规范提供了对Web文档资源进行描述的语言和框架。

（3）特征提取

用向量空间模型得到的特征向量的维数往往会达到数十万维,如此高维的特征对即将进行的分类学习未必全是重要、有益的（一般只选择2%～5%的最佳特征作为分类依据）,而且高维的特征会大大增加机器的学习时间,这便是特征提取所要完成的工作。

特征提取算法一般是构造一个评价函数,对每个特征进行评估,然后把特征按分值高低排队,预定数目分数最高的特征被选取。

在文本处理中,常用的评估函数有信息增益（InformationGain）、期望交叉熵（ExpectedCrossEntropy）、互信息（MutualInformation）、文本证据权（TheWeightofEvidenceforText）和词频。

2.3.2数据挖掘分析技术

文本转换为向量形式并经特征提取以后,便可以进行挖掘分析了。

常用的文本挖掘分析技术有:

文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。

（1）文本结构分析

其目的是为了更好地理解文本的主题思想,了解文本所表达的内容以及采用的方式。

最终结果是建立文本的逻辑结构,即文本结构树,根节点是文本主题,依次为层次和段落。

（2）文本摘要

文本摘要是指从文档中抽取关键信息,用简洁的形式对文档内容进行解释和概括。

这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。

任何一篇文章总有一些主题句,大部分位于整篇文章的开头或末尾部分,而且往往是在段首或段尾,因此文本摘要自动生成算法主要考察文本的开头、末尾,而且在构造句子的权值函数时,相应的给标题、子标题、段首和段尾的句子较大的权值,按权值大小选择句子组成相应的摘要。

（3）文本分类

文本分类的目的是让机器学会一个分类函数或分类模型,该模型能把文本映射到己存在的多个类别中的某一类,使检索或查询的速度更快,准确率更高。

训练方法和分类算法是分类系统的核心部分。

用于文本分类的分类方法较多,主要有朴素贝叶斯分类（NativeBayes）、向量空间模型、决策树、支持向量机、后向传播分类、遗传算法、基于案例的推理、K-最临近、基于中心点的分类方法、粗糙集、模糊集以及线性最小二乘（LinearLeastSquareFit,LLSF）等。

厉宇航等指出传统特征提取的方法是基于词形的,并不考察词语的意义,忽略了同一意义下词形的多样性、不确定性以及词义间的关系,尤其是上下位关系。

该文的方法在向量空间模型（VSM）的基础上,以“概念”为基础,同时考虑词义的上位关系,使得训练过程中可以从词语中提炼出更加概括性的信息,从而达到提高分类精度的目的。

（4）文本聚类

文本分类是将文档归入到己经存在的类中,文本聚类的目标和文本分类是一样的,只是实现的方法不同。

文本聚类是无教师的机器学习,聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小。

Hearst等人的研究已经证明了“聚类假设”,即与用户查询相关的文档通常会聚类得比较靠近,而远离与用户查询不相关的文档。

（5）关联分析

关联分析是指从文档集合中找出不同词语之间的关系。

Feldman和Hirsh研究了文本数据库中关联规则的挖掘,提出了一种从大量文档中发现一对词语出现模式的算法,并用来在Web上寻找作者和书名的出现模式,从而发现了数千本在Amazon网站上找不到的新书籍;

WangKe等以Web上的电影介绍作为测试文档,通过使用OEM模型从这些半结构化的页面中抽取词语项,进而得到一些关于电影名称、导演、演员、编剧的出现模式。

（6）分布分析与趋势预测

分布分析与趋势预测是指通过对文档的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势。

FeldmanR等使用多种分布模型对路透社的两万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对分布,揭示了一些有趣的趋势。

WuthrichB等通过分析Web上出版的权威性经济文章对每天的股票市场指数进行预测,取得了良好的效果。

（7）可视化技术

数据可视化（DataVisualization）技术指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。

它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。

国内外学者已经对信息可视化技术进行了大量的研究,运用最小张力计算、多维标度法、语义分析、内容图谱分析、引文网络分析及神经网络技术,进行了信息和数据的可视化表达[4]。

2.4文本挖掘热点难点问题

显然，目标不同，文本挖掘的过程也不尽相同。

但不论何种目标，都不可忽视如下几个方面的研究:

（1）.文本建模

向量空间模型，也称为“词袋”法，是目前文本处理的标准模式。

简单讲，就是提取文本高频词构成特征向量来表达文本特征的方法，该方法有效描述了词一文档间的频率关系。

面对复杂繁琐的自然语言文本，向量空间模型是目前最为简便有效的文本表示方法。

但向量空间模型建模方法最大的问题就是忽略了词在文本中承担的语法和语义上的作用，同时忽略了词与词之间的顺序关系，丢失了大量有用信息，从而减弱了高频词向量表达文本特征的可信度。

同时，向量空间模型在处理真实文本数据时形成的特征向量的高维性也严重影响了后续文本挖掘的效率和结果的准确性。

此外，建模前的文本预处理工作作为整个文本挖掘过程的基础尤为重要。

而不同的语言的处理又常常不同。

如何解决多语言混合如中英文混合情况下的文本处理和建模工作日益重要。

同时，不同的语言有不同的切词处理方式。

并且存在着大量多词同义、一词多义的现象。

（2）.特征降维

文本模型的高维特性制约了文本挖掘的效果。

不论何种语种，由于语言本身的非结构特性以及建模后的高维特性，使得后续挖掘过程中都面临严重的效率问题。

因此有效的降维是进行后续文本挖掘的重要一环。

目前的文本降维方法主要采用基于奇异值分解的潜在语义分析技术。

该技术通过分析特征词之间的语义相关性来减少特征向量的维数，通过将词一文档的高维表示投影在低维潜在语义空间中，降低空间的维数，进而得到词一文档的不再稀疏的低维表示。

并且，由词袋模型在进行奇异值分解后得到的子空间不再是仅仅反映出词汇出现的频率和分布关系，而进一步揭示了词汇或文档之间的语义联系。

然而，基于奇异值分解的潜在语义分析技术有两大突出的问题:

一是得到的分解矩阵具有正交的特性，导致无法更好的描述文本数据空间的特点，从而使得对降维后的子空间进行进一步的文本分析时结果并不准确。

这一问题在面对大规模文本数据时显得更加突出。

另一方面，由于潜在语义分析得到的分解矩阵存在负数，而难以直观地做出与实际情况一致的语义上的解释。

非负矩阵分解方法有效解决了上述问题。

借鉴人类思维中“局部构成整体”的概念，非负矩阵分解将由词袋法构造的向量空间模型分解成两个非负、非正交的子矩阵，从而可以更有效的降维及进行进一步的聚类、分类分析。

（3）.挖掘算法的选择

模型创建成功并且进行了有效的降维处理之后，就可以进行具体的挖掘操作了。

从狭义的角度理解，也可以说这部分才是真正的挖掘。

而广义上来说，整个过程才一构成文本挖掘的全部过程。

文本挖掘算法并不是一个新的领域，通常就是数据挖掘方法在文本数据上的应用。

因此多数挖掘方法来自机器学习、统计学习、自然语言处理、信息抽取、信息检索以及知识管理等领域，最终目标就是对建模后的文本数据进行分析和处理，找到其中潜在的有用信息。

根据不同的应用目标，挖掘出的知识种类不尽不同，由此可以对文本挖掘的技术和算法进行如下的分类:

如根据发现关联规则、聚类、趋势、差异等知识的不同，分别对应不同领域的算法选择。

任何算法技术的研究和设计都离不开始实验的仿真和具体实例的验证。

文本数据挖掘过程亦是如此。

由于文本数据的复杂多样性，导致文本数据的挖掘过程相对其他结构化数据要复杂繁琐的多，对数据的敏感性更为严重，在很多情况下，面临对开放语料的实验结果不理想的问题。

因此选择更好的评价方法，克服现有语料手工分类不准确带来的误差，以更好地对算法作出评价，同样重要。

本文也将在后续仿真的具体过程中对所研究的方法进行有意义的评价。

（4）.模式的理解及可视化表达

多数文本挖掘应用实例的目标同数据挖掘类似，通常是要辅助用户的决策和判断，因此从用户的角度来看，文本挖掘所发现结果的可理解至关重要。

而对于各种方法挖掘出的模式、规则等结果，提高其可理解性的解决方法通常有两种:

一种是以生成人类易于理解的自然语言的方式进行呈现，如对文档进行摘要的方法;

另一种方式则是以图形界面方式展示结果，通过提供相对少量的规则，利用计算机图形学、图像处理等可视化技术将结果更加直观的呈现给用户。

近年来，可视化技术作为展示结果的关键一环逐渐成为文本挖掘过程中日益重要的一个分支。

大量的研究结合语义分析、内容图谱分析、最小张力计算、神经网络技术、多维标度法等数据分析和处理方法进行了结果的可视化表达[5]。

二、文本挖掘算法

3.3.3朴素贝叶斯文本分类算法

3.3.3.1贝叶斯公式

设A、B是两个事件，且P（A）>

0，称

为在事件A发生的条件下事件B发生的条件概率。

乘法公式：

P（XYZ）=P（Z|XY）P（Y|X）P（X）

全概率公式：

P（X）=P（X|Y1）+P（X|Y2）+…+P（X|Yn）

贝叶斯公式：

3.3.3.2贝叶斯定理在分类中的应用

在分类（classification）问题中，常常需要把一个事物分到某个类别[12]。

一个事物具有很多属性，把它的众多属性看做一个向量，即x=（x1,x2,x3,…,xn），用x这个向量来代表这个事物。

类别也是有很多种，用集合Y={y1,y2,…ym}表示。

如果x属于y1类别，就可以给x打上y1标签，意思是说x属于y1类别。

这就是所谓的分类（Classification）。

x的集合记为X，称为属性集。

一般X和Y的关系是不确定的，你只能在某种程度上说x有多大可能性属于类y1，比如说x有80%的可能性属于类y1，这时可以把X和Y看做是随机变量，P（Y|X）称为Y的后验概率（posteriorprobability），与之相对的，P（Y）称为Y的先验概率（priorprobability）。

在训练阶段，我们要根据从训练数据中收集的信息，对X和Y的每一种组合学习后验概率P（Y|X）。

分类时，来了一个实例x，在刚才训练得到的一堆后验概率中找出所有的P（Y|x），其中最大的那个y，即为x所属分类。

根据贝叶斯公式，后验概率为：

在比较不同Y值的后验概率时，分母P（X）总是常数，因此可以忽略。

先验概率P（Y）可以通过计算训练集中属于每一个类的训练样本所占的比例容易地估计。

3.3.3.3朴素贝叶斯分类器

1、条件独立性

给定类标号y，朴素贝叶斯分类器在估计类条件概率时假设属性之间条件独立。

条件独立假设可以形式化的表达如下：

其中每个训练样本可用一个属性向量X=（x1,x2,x3,…,xn）表示，各个属性之间条件独立。

比如，对于一篇文章，

Goodgoodstudy,Daydayup.

可以用一个文本特征向量来表示，x=（Good,good,study,Day,day,up）。

一般各个词语之间肯定不是相互独立的，有一定的上下文联系。

但在朴素贝叶斯文本分类时，我们假设个单词之间没有联系，可以用一个文本特征向量来表示这篇文章，这就是“朴素”的来历。

2、朴素贝叶斯如何工作

有了条件独立假设，就不必计算X和Y的每一种组合的类条件概率，只需对给定的Y，计算每个xi的条件概率。

后一种方法更实用，因为它不需要很大的训练集就能获得较好的概率估计。

3、估计分类属性的条件概率

P（xi|Y=y）怎么计算呢？

它一般根据类别y下包含属性xi的实例的比例来估计。

以文本分类为例，xi表示一个单词，P（xi|Y=y）=包含该类别下包含单词的xi的文章总数/该类别下的文章总数。

4、条件概率的m估计

假设有来了一个新样本x1=（Outlook=Cloudy,Temprature=Cool,Humidity=High,Wind=Strong），要求对其分类。

我们来开始计算，

P（Outlook=Cloudy|Yes）=0/9=0P（Outlook=Cloudy|No）=0/5=0

计算到这里，大家就会意识到，这里出现了一个新的属性值，在训练样本中所没有的。

如果有一个属性的类条件概率为0，则整个类的后验概率就等于0，我们可以直接得到后验概率P（Yes|x1）=P（No|x1）=0，这时二者相等，无法分类。

当训练样本不能覆盖那么多的属性值时，都会出现上述的窘境。

简单的使用样本比例来估计类条件概率的方法太脆弱了，尤其是当训练样本少而属性数目又很大时。

解决方法是使用m估计（m-estimate）方法来估计条件概率：

n是类yj中的样本总数，nc是类yj中取值xi的样本数，m是称为等价样本大小的参数，而p是用户指定的参数。

如果没有训练集（即n=0），则P（xi|yj）=p,因此p可以看作是在类yj的样本中观察属性值xi的先验概率。

等价样本大小决定先验概率和观测概率nc/n之间的平衡。

3.3.3.4朴素贝叶斯文本分类算法

（1）文本分类问题

在文本分类中，假设我们有一个文档d∈X，X是文档向量空间（documentspace），和一个固定的类集合C={c1,c2,…,cj}，类别又称为标签。

显然，文档向量空间是一个高维度空间。

我们把一堆打了标签的文档集合<

d,c>

作为训练样本，<

∈X×

C。

例如：

={BeijingjoinstheWorldTradeOrganization,China}

对于这个只有一句话的文档，我们把它归类到China，即打上china标签。

我们期望用某种训练算法，训练出一个函数γ，能够将文档映射到某一个类别：

γ:

X→C

这种类型的学习方法叫做有监督学习，因为事先有一个监督者（我们事先给出了一堆打好标签的文档）像个老师一样监督着整个学习过程。

朴素贝叶斯分类器是一种有监督学习，常见有两种模型，多项式模型（multinomialmodel）和伯努利模型（Bernoullimodel）。

（2）多项式模型

在多项式模型中，设某文档d=（t1,t2,…,tk），tk是该文档中出现过的单词，允许重复，则

先验概率P（c）=类c下单词总数/整个训练样本的单词总数

类条件概率P（tk|c）=（类c下单词tk在各个文档中出现过的次数之和+1）/（类c下单词总数+|V|）

V是训练样本的单词表（即抽取单词，单词出现多次，只算一个），|V|则表示训练样本包含多少种单词。

在这里，m=|V|,p=1/|V|。

P（tk|c）可以看作是单词tk在证明d属于类c上提供了多大的证据，而P（c）则可以认为是类别c在整体上占多大比例（有多大可能性）。

（3）伯努利模型

P（c）=类c下文件总数/整个训练样本的文件总数

P（tk|c）=（类c下包含单词tk的文件数+1）/（类c下单词总数+2）

（4）两模型的区别

二者的计算粒度不一样，多项式模型以单词为粒度，伯努利模型以文件为粒度，因此二者的先验概率和类条件概率的计算方法都不同。

计算后验概率时，对于一个文档d，多项式模型中，只有在d中出现过的单词，才会参与后验概率计算，伯努利模型中，没有在d中出现，但是在全局单词表中出现的单

展开阅读全文