PCA&SVD应用分析.ppt
《PCA&SVD应用分析.ppt》由会员分享,可在线阅读,更多相关《PCA&SVD应用分析.ppt(19页珍藏版)》请在冰点文库上搜索。
PCA和SVD应用分析,陈晓光梁正虎许涛,PCA应用分析,主分量分析简介在工程实际中获得的机器信号往往含有噪声,为了有效地识别机器的状态和机器的故障,就要通过多种物理量的特征信息进行判断和识别。
当用于识别的特征数量较多时,相当于在高维空间对机器状态或故障进行判断。
主分量分析法就是是利用降维的思想,把原来多个变量转化为少数几个互不相关的主成分的一种统计方法,最终达到数据化简、揭示变量间的关系和进行数据解释的目的。
PCA应用分析,原始数据x,1、模拟数据的主分量分析,PCA应用分析,投影分量y,1、模拟数据的主分量分析,PCA应用分析,2、压缩机的故障特征压缩在某单缸往复式压缩机(型号2V-0.14/7,电机转速800转/分)上我们测量了三种不同状态下的振动信号。
测试的三种工况分别是排气阀泄露、进气阀泄露、活塞环磨损。
从采集到各种状态的样本中,各取10个样本用于原始特征的提取。
提取出的6个振动指标是波形指标、峰值指标、脉冲指标、裕度指标、偏斜度指标、峭度指标。
然后用主分量分析对这6个振动特征指标进行特征压缩,预先设定压缩后的特征维数为2。
以第一阶主分量为横轴,第二阶主分量为纵轴,画出压缩后的平面图如下图。
PCA应用分析,2、压缩机的故障特征压缩,图中“x”、“o”、“*”分别对应地代表了排气阀泄露、进气阀泄露、活塞环磨损三种故障。
经过特征压缩后的三种故障分布在不同区域,原本在多为特征空间区分的故障通过特征压缩后,在低维空间仍具有良好的可区分性。
通过主分量分析对多维特征进行维数约减后,仍可以对机器的故障状态进行有效分类。
本例中特征压缩后,前两阶主元的累积贡献率n=0.9966,说明利用主分量分析进行压缩后基本上完整地保留了原始特征信息。
PCA应用分析,3、内燃机的故障特征压缩四冲程内燃机转速为3500r/min。
针对该内燃机在正常运行、阀杆撞击、连杆撞击、阀杆连杆同事撞击四种不同状态下,用加速度传感器测量振动。
振动信号的采样频率是40kHz,共采集到20组振动数据。
再利用功率谱分析方法,根据功率谱上低频区能量大于高频区的特点,采用不等带宽对频谱进行划分:
10Hz处,f=1.6Hz;100Hz处,f=16Hz;1000Hz处,f=160Hz等。
共取50个频带。
将每个功率谱用50维向量表示,并且每个向量元素代表谱图上某频带内的功率。
利用上面得到的50维的特征向量对内燃机的状态进行识别。
PCA应用分析,3、内燃机的故障特征压缩通过主分量分析简化了原来的特征向量。
如左图、中图所示是用两个主分量作为诊断特征将内燃机的四种特征聚类,右图是用三个主分量作为诊断特征将内燃机的四种特征聚类。
由图可见,选用两个主分量x、y,y、z或三个主分量x、y、z,就能把内燃机的四种故障归属到四个相应的区域中去。
-无缺陷,+-阀撞击,-连杆撞击,-两种撞击,SVD应用分析,奇异值分解的基本特征,SVD应用分析,奇异值分解的基本特征,SVD应用分析,奇异值分解的基本特征,5)奇异值的第五个特征是容易得到矩阵A的秩的一个最佳逼近矩阵。
奇异值的这个特征可以应用于信号的分解和重构,提取有用信息,消除信号噪声。
6)奇异值的第六个特征是若A、B都有相同的奇异向量,则,也就是说,我们可以通过控制奇异值的大小来控制两个矩阵空间的距离。
下面就奇异值分解的应用举例。
若矩阵A表示某产生的信号,并且A的奇异值分解为。
定义其奇异值的贡献率,若接近于1,则该信号的主要信息包含在矩阵所表示的信号之中。
而矩阵表示该信号的次要信息,一般认为是信号的噪声及误差。
SVD应用分析,1、在主成分分析中的应用,例如,对某运动物体的坐标(x,y,z)测量5次后形成一个3*5阶的矩阵,矩阵如下:
SVD应用分析,1、在主成分分析中的应用,计算A的奇异值分解得到奇异值为每个奇异值的贡献率由于十分接近于1,而且我们一般认为对运动物体的测量由两成分组成:
实际坐标值和测量误差。
因此我们可以认为运动物体的实际坐标值为矩阵。
SVD应用分析,1、在主成分分析中的应用,即,利用奇异值分解的特点,可以选择对图像A进行压缩处理。
若图像A的秩为r,在无损压缩条件下,其压缩率为在有损压缩条件下,将图像,A压缩成秩为k(kr)的压缩率为。
如果图像A为256*256,压缩后的图像A的秩为16,则压缩率为16/128=0.125。
SVD应用分析,2、图像压缩的应用,下面的两幅图分别是压缩前后的效果,压缩率为0.19。
SVD应用分析,2、图像压缩的应用,上面采用的压缩方法是最简单的方法,实际应用的图像压缩方法是对图像分块处理,这样既可以提高压缩和解压缩的速度,在相同的压缩率下又能得到较好质量的压缩图像。
一个文章集合可以表示为一个阶的矩阵,其中n表示文章集合中文章数,m表示文章集合中包含所有不同词的个数。
即矩阵的每一行对应于某个词,矩阵的每一列对应于某篇文章。
设,则dij表示第j篇文章中第i个词的权重值。
在实际应用中dij可以用如下公式计算,其中Zij表示第j篇文章中第i个词出现的频度,N为文章总数,ni表示有第i个词的文章数。
SVD应用分析,3、在文章分类中的应用,上述矩阵D建立后,可对D进行奇异值分解,得到。
取U、A和V的前k列分别构成Uk、Ak和Vk,则可以得到D的k阶近似矩阵。
隐含语义索引(LSI)技术就是用Dk近似表征矩阵D,Uk和Vk的行向量分别表示词向量和文章向量,在此基础上进行文章分类和其它处理。
隐含语义索引(LSI)技术通过奇异值分解和取k秩近似矩阵,一方面消减了D中包含的“噪声”因素,从而更加凸显出词和文章之间的语义关系;另一方面使得词、文章向量空间大大缩减,可以提高文章分类的准确性。
因此,我们可以通过计算Vk的各行向量之间的相似度来确定文章的分类,相似度大的文章为一类。
SVD应用分析,3、在文章分类中的应用,ThankYou!