SOM算法研究与应用.doc-资源下载

SOM算法研究与应用.doc

1、SOM算法研究与应用1引言聚类分析在数据挖掘研究中占有重要的位置，聚类是一个将数据集划分为若干类的过程，并使得同一个类内的数据对象具有较高的相似度而不同类的数据对象之间的区别较大。聚类分析属于一种无教师监督的学习方法，其基本的指导思想是最大程度地实现类中对象相似度最大类间对象相似度最小。本文介绍了一种基于自组织映射网络的数据聚类方法该方法。分别从其研究背景和算法以及算法的设计与实现进行说明。脑科学的研究表明，人类大脑皮层中的细胞群存在着广泛地自组织现象。处于不同区域的神经元具有不同的功能，它们具有不同特征的输入信息模式，对不同感官输入模式的输入信号具有敏感性，从而形成大脑中各种不同的感知路径。

2、并且这种神经元所具有的特性不是完全来自生物遗传，而是很大程度上依赖于后天的学习和训练。而本文所介绍的自组织特征映射网络（SOM）就是根据这种理论而提出的。自组织映射(Self-OrganizingFeatureMaps，SOM)网络也称为Kohonen网络，该模型是由芬兰的赫尔辛基大学神经网络专家TeuvoKohonen于1981年提出，现在已成为应用最为广泛的自组织神经网络方法。TeuvoKohonen认为处于空间中不同区域的神经元有不同的分工，当一个神经网络接受外界输入模式时，将会分为不同的反应区域，各区域对输入模式具有不同的响应特征。这种网络模拟大脑神经系统自组织特征映射的功能。它是一种

3、竞争型神经网络，采用无监督学习算法进行网络训练，此网络广泛地应用于样本分类、排序和样本检测等方面。2 SOM算法SOM算法是由T。Kohonen于1982年提出来的一种基于竞争学习的单层神经网络模型。它在对数据进行矢量量化的同时还能实现对数据的非线性降维映射，该映射具有拓扑保持的优良特性，从而使SOM算法成为一种常用的聚类和可视化工具。在SOM算法中，作为数据代表的神经元被固定在一个低维常规网格上，采用邻域学习方式最终可达到神经元在该网格上的拓扑有序。从网络结构上来说，SOM网络最大的特点是神经元被放置在一维、二维或者更高维的网格节点上。如图1就是最普遍的自组织特征映射二维网格模型。图1 二维

4、SOM网格模型SOM网络的一个典型特性就是可以在一维或二维的处理单元阵列上，形成输入信号的特征拓扑分布，因此SOM网络具有抽取输入信号模式特征的能力。SOM网络一般只包含有一维阵列和二维阵列，但也可以推广到多维处理单元阵列中去。下面只讨论应用较多的二维阵列。输入层是一维的神经元，具有N个节点，竞争层的神经元处于二维平面网格节点上，构成一个二维节点矩阵，共有M个节点。输入层与竞争层的神经元之间都通过连接权值进行连接，竞争层临近的节点之间也存在着局部的互联。SOM网络中具有两种类型的权值，一种是神经元对外部输入的连接权值，另一种是神经元之间的互连权值，它的大小控制着神经元之间相互作用的强弱。在SO

5、M网络中，竞争层又是输出层。SOM网络通过引入网格形成了自组织特征映射的输出空间，并且在各个神经元之间建立了拓扑连接关系。神经元之间的联系是由它们在网格上的位置所决定的，这种联系模拟了人脑中的神经元之间的侧抑制功能，成为网络实现竞争的基础。3算法的设计层次型结构，具有竞争层。典型结构：输入层，竞争层。如图2所示。图2层次型结构SOM网络的主要目的是将任意维数的输入转换为一维或二维的离散映射，并且以拓扑有序的方式自适应实现这个过程。生物学基础实验表明，外界信息对于神经元的刺激并非是单一的，而是以某一细胞为中心的一个区域；并且刺激强度有强弱之分，大脑神经的刺激趋势和强度呈墨西哥草帽形状；神经元受

6、刺激的强度以中心最大，随着区域半径的增大逐渐减弱；远离中心的神经元相反会受到抑制作用。根据这个原理，当某类模式输入时，输出层某节点(神经元)得到最大刺激而获胜，获胜者以及其周围节点的权值会向着输入模式向量的方向进行修正。随着输入模式的变化，相应获胜神经元也发生变化，网络即通过自组织的方式在大量样本数据的训练下，使得输出层特征图能够反映出输入样本数据的分布情况。SOM网络采用的学习算法为无监督聚类法，它能将任意模式的输入在输出层映射成为一维或二维离散图形，并保持其拓扑结构不变。学习过程分为三个主要过程，分别是：（1）竞争:对每个输入模式，网络中的神经元计算它们各自的判别函数的值。这个判别函数对神

7、经元之间的竞争提供基础。具有判别函数最大值的特定神经元成为获胜者。（2）合作:获胜神经元决定兴奋神经元的拓扑邻域的空间位置，从而提供相邻神经元合作的基础。（3）权值调整:兴奋神经元通过对它们突触权值的适当调节以增加关于该输入模式的判别函数值，从而使得该神经元对以后相似的输入有一个增强的响应。4算法的实现4.1分类与输入模式的相似性分类是在类别知识等导师信号的指导下，将待识别的输入模式分配到各自的模式类中，无导师指导的分类称为聚类，聚类的目的是将相似的模式样本划归一类，而将不相似的分离开来，实现模式样本的类内相似性和类间分离性。由于无导师学习的训练样本中不含期望输出，因此对于某一输入模式样本应属

8、于哪一类并没有任何先验知识。对于一组输入模式，只能根据它们之间的相似程度来分为若干类，因此，相似性是输入模式的聚类依据。4.2相似性测量神经网络的输入模式向量的相似性测量可用向量之间的距离来衡量。常用的方法有欧氏距离法和余弦法两种。（1）欧式距离法设为两向量，其间的欧式距离（1）越小，与越接近，两者越相似，当时，；以（常数）为判据，可对输入向量模式进行聚类分析：由于均小于，均小于，而，故将输入模式分为类1和类2两大类。（2）余弦法设为两向量，其间的夹角余弦（2）越小，与越接近，两者越相似；当0时，1，；同样以为判据可进行聚类分析。4.3竞争学习竞争学习规则的生理学基础是神经细胞的侧抑制现

9、象：当一个神经细胞兴奋后，会对其周围的神经细胞产生抑制作用。最强的抑制作用是竞争获胜的“唯我独兴”，这种做法称为“胜者为王”（Winner-Take-All，WTA）。竞争学习规则就是从神经细胞的侧抑制现象获得的。它的学习步骤为：（1）向量归一化对自组织网络中的当前输入模式向量、竞争层中各神经元对应的内星权向量()，全部进行归一化处理，如图3所示，得到和：，（3）图3向量归一化（2）寻找获胜神经元将与竞争层所有神经元对应的内星权向量进行相似性比较。最相似的神经元获胜，权向量为：（4）（3）网络输出与权调整按WTA学习法则，获胜神经元输出为“1”，其余为0。即：（5）只有获胜神经元才有权调

10、整其权向量。其权向量学习调整如下：（4-6）为学习率，一般随着学习的进展而减小，即调整的程度越来越小，趋于聚类中心。（4）重新归一化处理归一化后的权向量经过调整后，得到的新向量不再是单位向量，因此要对学习调整后的向量重新进行归一化，循环运算，直到学习率衰减到0。为了更好地说明竞争学习算法的聚类分析效果，下面以一具体实例进行计算6。结论聚类分析在数据挖掘研究中占有重要的位置，在SOM算法中，作为数据代表的神经元被固定在一个低维常规网格上，采用邻域学习方式最终可达到神经元在该网格上的拓扑有序。典型结构包括输入层，竞争层。SOM算法聚类的过程，包括分类与输入模式的相似性，相似性测量方法，竞争学习过程。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？