WEB数据挖掘资料Word文档下载推荐.docx

资源描述

WEB数据挖掘资料Word文档下载推荐.docx

《WEB数据挖掘资料Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《WEB数据挖掘资料Word文档下载推荐.docx（11页珍藏版）》请在冰点文库上搜索。

WEB数据挖掘资料Word文档下载推荐.docx

数据分类的方法非常多，包含决策树方法、统计学方法、神经网络方法、近期邻居方法等等。

当中，基于决策树的分类方法与其他的分类方法比較起来，具有速度较快、较easy转换成简单的而且易于被理解的分类规则、较易转换成数据库查询语言、友善、可得到更高的精确度等长处。

c.数据聚类：

其基本思想是：

对数据进行分析的过程中，在考虑数据间的“距离”的同一时候，更側重考虑某些数据间具有类的共同内涵。

数据聚类是对一组数据进行分组，这样的分组基于例如以下的原理：

最大的组内类似性与最小的组间类似性。

时序模式：

可用例如以下的样例描写叙述时序模式：

一个顾客先租看影片“StarWars”，然后租“EmpireStrikesBack”，再租“ReturnoftheJudi”，注意到这些租借事物的发生不一定是连着的。

像这样一次事件的发生会导致某些事物的相继发生的事件模式，称为时序模式。

e.类似模式：

时态或空间—时态的大量数据存在于计算机中，这些数据库样例包含：

股票价格指数的金融数据库、医疗数据库、多媒体数据库等等。

在时态或空间—时态数据库中搜索类似模式的目的是发现和预測风险、因果关系及关联于特定模式的趋势。

二、Web挖掘

Web网站上的数据有其自身的特点，基本的能够归纳为下面几点:

、数据量巨大，动态性极强；

2、

异构数据库环境；

、半结构化的数据结构。

Web数据挖掘能够分为Web内容挖掘,Web结构挖掘,Web使用挖掘三类。

Web内容挖掘是从文档内容或其描写叙述中抽取实用信息的过程,Web内容挖掘有两种策略:

直接挖掘文档的内容和在其它工具搜索的基础上进行改进。

採用第一种策略的有针对Web

的查询语言WebLOG,利用启示式规则来寻找个人主页信息的AHOY

等。

採用另外一种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,

得到更为精确和实用的信息。

属于该类的有WebSQL,及对搜索引擎的返回结果进行聚类的技术等。

依据挖掘处理的数据能够将Web

内容挖掘分为文本挖掘和多媒体挖掘两个部分。

Web结构挖掘是从Web

组织结构和链接关系中推导知识。

挖掘页面的结构和Web

结构,能够用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。

同一时候还能够用来指导页面採集工作,提高採集效率。

Web结构挖掘能够分为Web文档内部结构挖掘和文档间的超链接结构挖掘。

这方面的代表有PageRank和CLEVER,此外,在多层次Web数据仓库（MLDB）

中也利用了页面的链接结构。

Web使用挖掘是从server端记录的用户訪问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据能够帮助理解用户隐藏在数据中的行为模式,做出预測性分析,从而改进网站的结构或为用户提供个性化的服务。

Web挖掘相关技术：

数据挖掘方法通常能够分为两类:

一类是建立在统计模型的基础上,

採用的技术有决策树、分类、聚类、关联规则等;

还有一类是建立一种以机器学习为主的人工智能模型,採用的方法有神经网络、自然法则计算方法等。

Web内容挖掘：

1、Web

文本挖掘

、Web

多媒体挖掘

3、特征提取

4、分类

眼下文本分类的方法非常多，如多元回归模型、K-邻近方法、神经网络法、贝叶斯方法、决策树法、支持向量机等，这些方法基本上能够分为两类：

统计分类方法和基于机器学习的分类方法。

支持向量机（SVM）是统计学习理论领域近几年才提出的新知识，眼下仍处于发展阶段，但就眼下的应用而言，SVM在非常多领域的运用效果都非常理想。

网页自己主动分类是Web内容挖掘的主要研究内容之中的一个，採用的主要技术是分本分类技术，这是由于文本是眼下Web内容的主体，而且对文本的处理较音频、视频的处理easy。

文本分类首先要进行特征抽取。

所谓特征是指一个词或词组。

眼下英文分类算法大多以单词为特征，在分词的时候利用空格和其他一些标点符号作为分隔符，从而抽取出文档中出现的全部特征，全部抽取出来的特征称为全特征集。

特征抽取完成后一般还要进行特征提取。

特征提取是指从全特征集中提取一个子集的过程。

提取出来的子集称为特征子集。

依据JohnPierre的理论，用来表示文本的特征理论上应具有例如以下特点;

（1）数量上尽量少;

（2）出现频率适中;

（3）冗余少;

（4）噪音少;

（5）与其所属类别语义相关;

（6）含义尽量明白;

从全特征集中提取特征子集时通常依据特征的权值进行取舍，权值的计算方法有多种，比方信息赢取（InformationGain），互信息（MutualInformation）等。

特征提取后就能够用特征子集来表示文本，然后就能够构造用不同分类方法用来分类。

常见的分类模型有:

（1）K一近邻模型，

（2）Rocchio模型，（3）贝叶斯模型，（4）神经网络模型，（5）决策树模型。

眼下研究人员己经提出了很多文本分类方法，如向量空间法（VSM）、回归模型、K近邻法、贝叶斯概率方法、决策树、神经网络、在线学习、支持向量机等。

在完毕特征提取之后，我们就能够使用这些特征来表示一个文本。

详细的表示方法因分类方法而异。

每种分类模型都会採用自己的方法来表示一个文本，并将这样的表示方法纳入到自己的体系中去。

全部的分类模型大体上都可分为训练和分类两个步骤。

一般来说，训练例越多分类的精确度越有保证，但也并非越多越好。

（1）

基于TFIDF的Rocchio算法

Rocchio

算法来源于向量空间模型理论，向量空间模型（Vectorspacemodel）的基本思想为採用向量来表示一个文本，之后的处理过程就能够转化为空间中向量的运算。

基于TFIDF的Rocchio是这样的思想的一种实现方法，当中文本以一个N维向量来表示，向量维数N即特征数，向量分量是特征的某种权重表示，该权值的计算方法称为TFIDF方法，过程例如以下:

通过

TFIDF方法首先将训练集中的文本表示为向量，然后生成类别特征向量（即能够用来代表一个类别的向量）。

类别特征向量取值为该类中全部文本向量的平均值。

Rocchio算法训练的过程事实上就是建立类别特征向量的过程。

分类的时候，给定一个未知文本，先生成该文本的向量，然后计算该向量与各类别特征向量的类似度，最后将该文本分到与其最类似的类别中去。

向量的类似度度量方法有两种:

（以x,y代表向量，xi,yi代表向量分量）:

整体来看，Rocchio算法简单易行，执行速度尤其是分类速度较快。

（2）

朴素贝叶斯模型

贝叶斯分类是一种统计学分类方法，它基于贝叶斯定理，能够用来预測类成员关系的可能性，给出文本属于某特定类别的概率。

分类时依据预測结果将该样木分到概率最高的类别中去就可以。

假定有m个类c1,c2,c3…Cm，给定未知文本X,贝叶斯分类将给出条件X下具有最高后验概率的类别，即最大化P（Ci|X）依据贝叶斯定理可得:

显而易见，P（X）对于全部类是个常数，则仅仅需最大化P（X|Ci）P（Ci）就可以。

P（ci）能够依据训练集中的类别分布来计算，即

当中|Ci|为类别Ci包括的文本数，|D|为训练集中的文本总数。

在一个具有很多属性的事例中，计算P（X|Ci）的开销会很大，为了减少这样的开销而引出了称为类条件独立的朴素假定:

假定文档的一个属性对于分类的影响独立于其它属性，即文档的属性之间是不相关的。

这就是朴素贝叶斯（Na?

veBayes）的由来。

这样就能够简单的以各个属性在类别Ci上出现的概率来推算P（X|Ci）。

通常使用拉普拉斯预计（Laplaceanprior）来推算。

又因实现细节的不同有两种朴素贝叶斯模型，多元模型（Multi-variateBernoulliModel）仅仅考虑了特征在文本中是否出现（出现记为1，否则记为。

），多项式模型（MultinomialModel）考虑了特征在文本中的出现次数:

朴素贝叶斯分类模型训练的过程事实上就是统计每个特征在各类中出现规律的过程。

从理论上讲，贝叶斯分类的出错率最小，就试验结果来看，朴素贝叶斯在大型的数据集上表现出来难得的速度和精确度。

（3）

决策树

决策树（DecisionTree）是一个相似于流程图的树结构，当中每一个节点代表一个属性上的測试，每一个分支代表一个測试输出，最后的叶结点代表类别。

决策树方便改写为形如if-then的分类规则，易于理解。

决策树的核心算法是一种贪心算法，它以自顶向下的方式在训练集的基础上构造决策树，之后取未知文本的属性在决策树上測试，路径由根结点到叶结点，从而得到该文本的所属类别。

决策树的算法有C4.5（发展于ID3）,CART,CHAID等，他们的差别在于构造决策树与树枝剪除的算法细节不同。

决策树能够非常好的抵抗噪声。

最大的缺点在于不适应大规模的数据集，此种情况下决策树的构造会变得效率低下。

（4）

神经网络

神经网

（NeuralNetwork）的学习结果为目标函数，根据这个目标函数的输出作为分类的根据。

输入即为文本在各个特征上的各分量值。

神经网络实际上是一组连接的输入/输出单元，当中每个连接都具有一定的权值。

通过训练集来训练的过程就是调整这些权值的过程，使得神经网络能够正确的预測类别。

神经网络的训练是针对训练例逐个进行的，所以神经网络的训练集能够随时加入，不须要又一次进行训练就可完毕网络的调整。

同一时候有实验结果表明，在训练例过少的情况下，神经网络的分类准确率较低。

由于可通过训练来针对特征取一定的合适的权值，神经网络能够较好地抵御噪音的干扰。

（5）

K近邻

K近邻分类（K-nearestneighbor）的思想也来源于向量空间模型，相同採用将文本转化为向量的思想。

KNN是一种基于类比的分类方法。

在训练的过程中KNN会生成全部训练例的特征向量，并将其保存下来。

给定一个未知文本，首先生成它的特征向量，之后KNN会搜索全部的训练例，通过向量类似度比較从中找出K个最接近的训练例，然后将未知文本分到这K个近邻中最普遍的类别中去。

类似度能够通过欧几里德距离或向量间夹角来度量。

依据经验x一般取45。

KNN是一种懒散的方法，即它没有学习过程，仅仅是存放全部的训练例，直到接到未知文本的时候才建立分类。

ON的训练过程较快，并且能够随时加入或更新训练例来调整。

但它分类的开销会非常大，由于须要非常大的空间来保存训练例，并且分类效率非常差。

有看法觉得在小数据集上KNN的表现优异。

（6）

SVM方法

SVM方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，依据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度）和学习能力（即无错误地识别随意样本的能力）之间寻求最佳折中，以期获得较好的综合能力。

SVM专门针对有限样本，其目标是得到现有信息下的最优解而不不过样本数趋于无穷大时的最优值（KNN和NaiveBayes方法基于样本数趋于无穷大），从理论上说，SVM得到的将是全局最长处，从而攻克了在神经网络方法中无法避免的局部极值问题。

此外，SVM将实际问题通过非线性变换转换到高维的特征空间，在高维空间中构造线性判别函数来实现原空间中的非线性判别函数，特殊性质能保证机器有较好的推广能力，同一时候它巧妙地攻克了维数问题，其算法复杂度与样本维数无关。

5、网页分类方法

一般来说，网页中对于分类有作用的部分首先是核心文本，即网页中关于网页内容的文本部分。

其次是结构信息和超链接信息，再其次是多媒体信息。

多媒体信息的识别涉及图像检索、语音识别等技术，且眼下没有较好的结果，因此非常少被考虑。

我们进行网页分类的基本思路是:

（1）

利用自行研制的网页解析器分离出目标网页的核心纯文本。

（2）

利用自行研制的分类系统TCS对目标网页的核心纯文本部分进行分词、特征提取等操作，并产生目标网页的初始特征向量。

依据特征向量进行分类，确定目标网页的类别。

通常採用下面五种标准在不同的方面来评价一个分类器:

精度

（precision）

（2）查全率（recall）

（3）F标准综合了精度和查全率，将两者赋予相同的重要性来考虑，即

，当中r代表查全率，p代表精度。

这三个标准都仅仅用于分类器在单个类别上分类精确度的评价。

（4）宏观平均值（macro-averagedscore）

（5）微观平均值（micro-averagedscore）。

Web结构挖掘：

整个Web空间中,实用知识不仅包括在Web页面内容中,

也包括在Web

页间超链接结构与Web页面结构之中。

挖掘Web

结构的目的是发现页面的结构和Web间的结构,在此基础上对页面进行分类和聚类,从而找到权威页面,这样的方法能够用来改进搜索引擎。

从

web结构挖掘的现状来看，纯粹的网络结构挖掘研究非常少，多数是和其他web挖掘形式结合起来。

基本的研究集中在网络虚拟视图生成与网络导航、信息分类与索引结构重组、文本分类、文本重要性确定等几个方面。

关键页/

权威页（Hub/Authority）

方法　

页面的超链接关系十分复杂,

比如:

有的链接是为了导航,

因此不能简单觉得超链接即是引用关系;

此外因为商业的须要,非常少有页面会把其竞争对手的页面作为链接。

正是因为超链接结构中存在着以上的缺陷,

出现了关键页/

权威页方法。

权威页方法的思想是:

Web

上存在着一种重要的页面。

所谓关键页指的是自身不一定为多个页面所链接,

可是它的页面上存在着就某个专业领域而言最重要的网站链接。

对于这样的关键页,

它起到了隐含说明其它Web文档页面重要性的作用。

一个权威页应当是被多个关键页所链接的,

而一个关键页应当包括非常多权威页的链接。

将关键页与权威页的这样的联系依照算法计算出来,

就是关键页/

权威页方法的主要思想。

HITS和PageRank、以及在链接结构中添加了Web内容信息的HITS改进算法等，主要用于模拟Web网站的拓扑结构，计算Web页面的等级和Web页面之间的关联度，典型的样例是CleverSystem和Google.

Web使用挖掘：

Web使用挖掘又叫Web

使用记录挖掘,是指通过挖掘Web日志记录来发现用户訪问Web页面的模式。

能够通过分析和研究Web日志记录中的规律,来识别电子商务的潜在客户;

能够用基于扩展有向树模型来识别用户浏览模式,从而进行Web日志挖掘;

能够根据用户訪问Web的记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预測的根据,从而为用户预取一些Web页面,加快用户获取页面的速度。

Web

日志挖掘过程一般分为3

个阶段:

预处理阶段、挖掘算法实施阶段、模式分析阶段。

server日志记录了用户訪问本网站的信息,当中包含IP

地址、请求时间、方法、被请求文件的URL

、返回码、传输字节数、引用页的URL

和代理等信息。

经常使用有两种方法发现用户使用记录信息。

一种方法是通过对日志文件进行分析,

包含两种方式,

一是訪问前先进行预处理,

即将日志数据映射为关系表并採用对应的数据挖掘技术,

如关联规则或聚类技术来訪问日志数据,

二是对日志数据进行直接訪问以获取用户的导航信息;

另一种是通过对用户点击事件的搜集和分析发现用户导航行为。

挖掘在Internet上有很广泛的应用,比較常见的有:

帮助寻找用户感兴趣的新闻或其它信息以在Web网站中提供个性化服务,吸引很多其它用户。

在搜索引擎上对文档进行自己主动分类从而减少在搜索引擎上为组织整理Internet文档所需消耗的人力资源,也能够对Web页面进行排序,改进搜索引擎。

（3）Web日志挖掘在电子商务领域有非常广阔的应用前景,如发现顾客的购买习惯和浏览兴趣所在,有针对性调整销售模式,提高业务量。

Web挖掘的发展方向:

眼下，在国内外Web

挖掘的研究处于刚起步阶段，是前沿性的研究领域。

将来几个很实用的研究方向是：

（1）Web

数据挖掘中内在机理的研究；

（2）Web

知识库（模式库）的动态维护、更新，各种知识和模式的融合、提升，以及知识的评价综合方法；

（3）半结构、非结构化的文本数据、图形图像数据、多媒体数据的高效挖掘算法；

（4）Web数据挖掘算法在海量数据挖掘时的适应性和时效性；

（5）基于Web挖掘的智能搜索引擎的研究；

（6）智能网站服务个性化和性能最优化的研究；

（7）关联规则和序列模式在构造自组织网站的研究；

（8）分类在电子商务市场智能提取中的研究。

基于Web挖掘的个性化技术的发展

与人工智能技术的结合

个性化系统领域的很多问题终于都可归结到机器学习、知识发现等问题上。

用户建模过程用通常都应用到代理和多代理技术。

因此人工智能技术与Web挖掘技术的结合将会促进Web个性化系统的飞速发展。

与交互式多媒体Web技术的结合

随着下一代Internet技术的飞速发展与应用，未来的Web的将是多媒体的世界。

Web个性化技术和Web多媒体系统结合出现了交互式个性化多媒体Web系统。

支持海量多媒体数据流的内容挖掘将成为Web挖掘技术的基本功能之中的一个。

因为这样的基于内容的交互式个性化多媒体Web系统更能满足用户须要，因此也将成为Web个性化系统的发展方向之中的一个。

与数据库等技术的结合

12、数据挖掘和知识发现的发展方向：

1、挖掘算法的效率和可扩放性。

眼下数据库数据量大，维数高，使得数据挖掘的搜索空间增大，发现知识的盲目性提高。

怎样充分利用领域的知识，剔除与发现任务无关的数据，有效地减少问题的维数，设计出高效率的知识发现算法是下一步发展的重点。

2、数据的时序性。

在应用领域的数据库中，数据在不断地更新，随着时间的推移，原先发现的知识将不再实用，我们须要随时间逐步修正发现模式来指导新的发现过程。

3、和其他系统的集成。

知识发现系统应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多相技术集成的系统。

4、交互性。

能够利用贝叶斯确定数据的可能性及其分布来利用曾经的知识，再就是利用演绎数据库本身的演绎能力发现知识，并用于指导知识发现的过程。

5、发现模式的精炼。

能够利用领域知识进一步提炼发现模式，从中提取实用的知识。

6、互联网上知识的发现。

WWW正日益普及，从中能够找到非常多新的知识，已有一些资源发现工具来发现含有keyword的文本，但对在WWW上发现知识的研究不多。

加拿大的HAN等人提出利用多层次结构化的方法，通过对原始数据的一般化，构造出多层次的数据库。

比如可将WWW上的图象描写叙述而不是图像本身存储在高层数据库中。

如今的问题是怎样从复杂的数据（比如多媒体数据）中提取实用的信息，对多层数据库的维护，怎样处理数据的异类性和自主性等等。

展开阅读全文