近红外光谱分析技术的数据处理方法Word文档格式.doc

资源描述

近红外光谱分析技术的数据处理方法Word文档格式.doc

《近红外光谱分析技术的数据处理方法Word文档格式.doc》由会员分享，可在线阅读，更多相关《近红外光谱分析技术的数据处理方法Word文档格式.doc（8页珍藏版）》请在冰点文库上搜索。

近红外光谱分析技术的数据处理方法Word文档格式.doc

（Dp）1~k为各组分最佳波长的反射光密度值（D=-lgp,p为反射比）。

该方程准确的反映了定标范围内一系列样品的测定结果,与实验室常规测定法之间的标准偏差SE为:

SE=[Σ（y-x）2/（n-1）]1/2

（2）式中:

x表示实验室常规法测定值,y表示近红外光

谱法测值,n为样品数。

2光谱数据的预处理

仪器采集的原始光谱中除包含与样品组成有关的信息外,同时也包含来自各方面因素所产生的噪音信号。

这些噪音信号会对谱图信息产生干扰,有些情况下还非常严重,从而影响校正模型的建立和对未知样品组成或性质的预测。

因此,光谱数据预处理主要解决光谱噪音的滤除、数据的筛选、光谱范围的优化及消除其他因素对数据信息的影响,为下步校正模型的建立和未知样品的准确预测打下基础。

常用的数据预处理方法有光谱数据的平滑、基线校正、求导、归一化处理等。

2.1数据平滑处理

信号平滑是消除噪声最常用的一种方法,其基本假设是光谱含有的噪声为零均随机白噪声,若多次测量取平均值可降低噪声提高信噪比。

平滑处理常用方法有邻近点比较法、移动平均法、指数平均法等。

2.1.1邻近点比较法

对于许多干扰性的脉冲信号,将每一个数据点和它旁边邻近的数据点的值

进行比较可以测得其存在。

如果与邻近点的数值相差太大,超过给定的阈值,便可认为该数据是一个脉冲干扰,并通过邻近数据点的平均值来取代这一数据点值,就可以把这一干扰脉冲去掉,这样不影响信号的其它部分。

在这一数据点处理过程中,需注意选择调节参数,也就是考虑邻近数据点值,以及判断一个数据点和邻近数据点之间不同的阈值。

这个阈值一般定义为噪音测量偏差的倍数,以免把必要的有用信号去掉。

这一方法有时也称为邻近点平滑法,也叫做单点平滑法。

2.1.2移动平均法

由于平滑是通过对信号进行平均而减小噪音,因而多点平滑效果更好。

移动平均法是多点平滑中最简单的一种。

先选择在数据序列中相邻的奇数个数据点,这奇数个数据点即构成一个窗口。

计算在窗口内奇数个数据点的平均值,然后用求得的平均值代替奇数个数据点中的中心数据点的数据值,这样我们就得到了数据平滑后的一个新的数据点。

接着去掉窗口内的第一个数据点,并添加上紧接着窗口的下一个数据点,形成移动后的一个新窗口,其中的总数据个数不变。

同样地,用窗口内的奇数个数据点求平均值,并用它来代替窗口中心的一个数据点.如此移动并平均直到最后。

2.1.3指数平均法

指数平均法是计算在一个具有m个数据点的移动窗口中的各数据点的加权平均.在窗口的最后一个点p1即为要平滑的点,它的权重最大,而前面的每个点分配到的权重依次递减。

权重系数由平滑时间常数为T的指数函数e-ji（j标志i前面第j个点,即j=-（m-1）,-（m-2）,…,-1,0（要平滑的点i的j=0）的形状来决定。

p1后点的权重为0,这一过滤函数是用点i前面的点对第i个数据点进行平滑。

这一过程和用电子RC滤波器（阻容滤波器）的实时平滑类似。

由于该平滑函数是不对称的,故在平滑后的数据中引入了单向失真,这一点也和实时RC滤波器一样。

除了获得期望的信噪比降低外,指数平均的结果是峰的最大值下降,同时发生移动。

由于用平滑常数T对峰值进行指数平滑和具有时间常数Tx=T的仪器测量该峰的效果相同,因此T和峰宽比值函数的强度下降值从实验测量和理论计算都可得到。

2.2基线校正

由于仪器背景、样品粒度和其它因素的影响,近红外分析中常常出现基线漂移和倾斜现象。

采用基线校正可有效地消除这些影响。

操作时可选用峰谷点扯平、偏移扣减、微分处理和基线倾斜等方法,其中最常用的是一阶微分和二阶微分,但在微分处理时,要注意微分级数和微分数据点的选择。

2.3数据求导处理

近红外分析中,对于样品不同组分之间的相互干扰导致吸收光谱谱线重叠的现象,可采用求导的方法进行处理。

其中常用的是一阶导数和二阶导数。

一阶导数表示为:

yi′=yi+g-yi-g二阶导数表示为:

yi″=yi+2g-2yi+yi-2g式中:

g为光谱间隔,大小可视具体情况设定。

对光谱求导一般有两种方法:

直接差分法和SavitzkyGolay求导法。

对于分辨率高、波长采样点多的光谱,直接差分法求取的导数光谱与实际相差不大,但对于稀疏波长采样点的光谱,该方法所求的导数则存有较大误差,这时可采用SavitzkyGolay卷积求导法计算。

2.4归一化处理

用于消除光程变化或样品稀释等变化对光谱产生的影响。

有三种光谱归一

化方法:

最小/最大归一化、矢量归一化、回零校正。

其中常用的是矢量归一化,它是先计算出光谱的y平均值,再用光谱减去该平均值,这样光谱的中值为零,计算所有的y值的平方和,然后用光谱除以该平方和的平方根,结果光谱的矢量归一化是1。

回零校正是将光谱减去最小的y值,使得最小y值变为0。

3近红外光谱分析常用的数据处理方法

样品的近红外光谱包含了物质的组成和结构信息。

而物质质量参数（如成分含量）也与其组成结构相关。

应用化学计量学方法对两者进行关联,就可确定这两者间的定性或定量关系,即定标模型。

建立定标模型后,只要测出未知样品的近红外谱,根据标模型就可以预测样品的质量参数。

近红外光谱分析常用的计量方法有:

主成分分（PrincipalComponentAnalysis,PCR）,偏最小二乘法（PartialLeastSquares,PLS）和人工神经网络法（Artificial

NeuralNetwork,ANN）等。

它们都是常用的化学计量学方法,有着各自的优点和局限。

3.1主成分分析法（PCR）

主成分分析法是使用最为广泛的线形降维方法之一,该方法概念简单易懂,实现算法高效,因而在许多降维处理中应用都很广泛。

主成分分析法将方差的大小作为衡量信息量多少的标准,认为方差越大提供的信息越多,反之提供的信息就越少。

其基本思想是通过线形变换保留方差大、含信息多的分量,丢掉信息量少的方向,从而降低数据的维数。

降维后每个分量是原变量的线形组合,因此,主成分分析方法本质上是一种线形降维的方法。

其计算步骤一般分为以下四步:

1）对原始数据样本集合进行标准化处理。

2）计算标准化后的数据矩阵的协方差矩阵,并对其进行正交分解,得出主成分分量。

3）计算各主成分的累计贡献量,根据要求的贡献率阈值选取主成分。

4）针对选取的主成分建立主成分方程,计算主成分值。

PCR把原自变量映射为含绝大部分信息的少数潜变量,再用线性的最小二乘确定这些潜变量系数,建立潜变量和因变量的回归方程后再转换为原自变量和因变量的回归方程。

其压缩自变量的效率极高,但其映射过程和因变量无关,因而其预测精度也难达

到很高。

3.2偏最小二乘法（PLS）

偏最小二乘法（Partialleastsquaresregression,简称PLS）将因子分析和回归分析结合的方法,很好地解决了许多以往用普通多元线性回归难以解决的问题。

用近红外光谱数据来预测样品的组成含量时,作为解释变量的近红外反射光谱的波长有几百个甚至几千个,往往超过了样本的个数,造成多重相关,难用普通的多元线性回归方法来建立稳健、精度较高的

数学模型。

PLS通过因子分析将光谱（多维空间数据,维数相当于波长数目）压缩为较低维空间数据,其方法是将光谱数据向协方差最大方向投影,将原近红外光谱分解为多种主成分光谱,不同近红外光谱的主成分分别代表不同组分和因素对光谱的贡献,通过对主成分的合理选取,去掉代表干扰组分和干扰因素主成分,选用有用的主成分参与回归。

为了建立由各因素构成的数据矩阵X与由各目标构成的数据矩阵Y之间的关系,其中X包含p个变量,Y包含pi个变量,样本数为m,用PLS方法处理时,首先将X矩阵作为双线性分解,即X=TPT

+F,其中矩阵T含有两两正交的隐变量。

PLS方法与主成分分析方法的不同之

处在于,主

成分分析法要求分解后得到的隐变量t的方差为最大,而不考虑矩阵Y的关系,而用PLS方法时,需要用到矩阵Y中的信息,矩阵Y也可作双线性分解,即Y

=UQT+E。

其中U矩阵包含Y的隐变量u,即u为矩阵Y中变量的线性组合,E

为残差阵。

PLS方法要求X分解得到的隐变量t与Y分解得到的隐变量u为最大重叠或相关性最大,因此有u=vt+e,式中e为残差矢量,系数v根据最小二

乘确定。

所以PLS是一种具有较好发展前景的新型数据处理方法,是近年来因

实际需要而产生和发展的一个广泛使用的多元统计数据分析方法。

例如:

王宏

等将遗传算法应用于无创伤人体血糖浓度光学检测的基础研究中,在偏最小二

乘法校正模型的波长优化选择中具有显著的效果。

将遗传算法作为模块循环运行,能更快达到最优解,有效提高测量精度。

Bangalore等以LAIRS测量水中有机物含量为例,研究了遗传算法用于优化PLS建立多元校正模型的波长和特征

变量数。

张大仁、赵立新将遗传算法和偏最小二乘法结合应用于定量结构活性

关系研究中,得到较好的QSAR模型。

3.3人工神经网络法（ANN）

ANN始于20世纪40年代初。

它的基本思想是模拟人脑细胞（神经元）工作原理,以建立模型进行分类和预测的。

人工神经网络的最大优点是它的抗干扰、抗噪音能力和它的非线性转换能力。

ANN用于非线性模型（也可用于线性模型）,其缺点是学习时间较长,但只要得到模型参数,进行预测时能立即得到结果。

神经网络的连接方式有很多种,使用较多的是反向传输模型,即BP

（back-propagation）模型,在1986年由Rumelhart,Hinton和Williams等人提出。

该模型可以实现数据处理的定量预测,也可以用于模式识别。

在近红外

光谱的光谱数据处理中,无论是对样品的组成、质量指标预测,还是模式识别

分类,都可以人工神经网络在近红外光谱分析中有着不可替代的作用,特别是

在解决非线性数据处理方面优势明显。

Tanabe等利用神经网络系统对1129个红外谱图进行识别,系统由两部分组成,能在0.1s内鉴别未知谱。

王志有等采用BP人工神经网络光度法对复合维生素片中的VB1,VB2,VB6和VPP进行了同时测定,得到了较为准确的结果。

张卓勇等论述了人工神经网络在光谱分析重

叠信号解析中的应用,将基于计算最大差异光谱的目标转换因子分析法,用于

解析混合物的红外光谱和从混合物的红外光谱中解析出纯组分光谱,得到了满

意的结果。

以上几种红外光谱的数据处理方法可根据建模模型以及实际情况灵活选择。

主成分回归方法可有效解决譬如共线问题、变量数使用限制问题并在一定程度

上解决了噪音滤除问题,缺点是不能保证参与回归的主成分一定与被测组分的

性质有关。

偏最小二乘法把数据分解和回归融合在一起,得到的特征值向量直

接与被测组分或性质有关,适于非线性数据的建模,缺点是建模过程复杂。

对

谱峰重叠严重、有用信号较弱、噪音较大的谱图,可用人工神经网络法建模。

4结语数据处理和分析方法是现场光谱技术三大技术主题之一。

若没有有效的数

据处理和分析方法,即使仪器质量再好,得出的谱图再清晰、准确,这些数据

也不能直接给出任何面向最终应用的有用信息.更何况,在现场的恶劣条件下,得到的谱图必然包含各种噪音和干扰信号,若不进行适当的预处理和分析,则

良莠不齐的数据势必使最终结论的可靠性和准确性大打折扣。

对于每一种化学

计量学方法而言,它们都有各自的优缺点。

因此,将各种方法联合使用,相互取长补短,将是今后发展的方向。

展开阅读全文