1、二:聚类分析的基本思想,C-均值动态聚类算法的思想及步骤 1.聚类分析是无监督分类:(1)假设:对像集客观存在着若干个自然类,每个自然类中个体的属性具有较强的相似性。(2)原理:将给定模式分成若干组,每组内的模式是相似的,而组间各模式差别较大。(3)方法:a 根据带分类的模式属性或特征相似程度进行分类,相似的模式归为一类,不相似的模式划分为不同的类,将带分类的模式集分成若干个不重叠的子集。b 定义适当的准则函数,运用有关的数学工具,或利用有关的统计概念和原理进行分类。2.C-均值法(1)条件及约定:设待分类的模式特征矢量集为1xnx,类的数目 C 是事先取定的。(2)算法思想:该方法取定 C
2、个类别和选取 C 个初始聚类中心,按最小距离原则将各模式分配到 C 类中的某一类,之后不断的计算类心和调整个模式的类别,最终使各模式到其判属性类别中心的距离平方之和最小。(3)原理步骤:a 任选 C 个模式特征矢量作为初始聚类中心:)0()0(2)0(1,czzz,令 k=0。b 将待分类的模式特征矢量集ix中的模式 按最小距离原则分化给 C 类中的某一类,即:如果)(kild=jmin)(kijd(i=1,2,3N),则(1)kilx。式中)(kijd表示ix和)(jkw的中心)(kjz的距离,上角标表示选代次数。于是产生新聚类)1(jkw(j=1,2,C)。c 计算重新分类后的各类心,)1
3、(kjz=)1(1kjn)1(kjiwxix,(j=1,2,C),式中)1(kjn为类)1(kjw中所含模式的个数。d 如果)1(kjz=)(kjz,j=1,2,.C,则结束,否则 k=k+1,转至 b。三:说明线性判别函数的正负以及数值大小在分类中的意义并证明。n 维特征空间nx中,两类问题的线性判别界面方程为 0wx+1nw=0 判别函数为 d(x)=0wx+1nw 此方程表示一超平面。它有以下三个性质:意义:(1)系数矢量,是该平面的法矢量。(1)判别函数 d(x)的绝对值正比于x到超平面 d(x)=0 的距离。(2)判别函数值的正负表示出特征点位于哪个半空间中,即若为正,在超平面的正侧
4、,若为负,在超平面的负侧。证明:(1)平面的方程可以写成|00wwx=|01wwn 设平面的单位法矢量n=|00ww(等号上有小三角)上式可以写成n*x=|01wwn 设p是平面中的任一点,x是特征矢量nx中的任一点 点x到平面的距离为差矢量(x-p)在n上投影的绝对值,即:xd=|n(x-p)|=|n*x-n*p|=|00wwx-|00wwp|=|00wwx+|01wwn|=|10w|d(x)|上式表明,d(x)的值|d(x)|正比于x到超平面 d(x)=0 的距离xd(2)两矢量n和(x-p)的数积为 n*(x-p)=|n|x-p|cos(n,(x-p)=|010wwxwn 当n和(x-p
5、)夹角小于o90时,即x在n指向的那个半空间中,cos(n,(x-p)0;反之,n和(x-p)夹角大于o90时,x在n背向的那个半空间中 cos(n,(x-p)0,故n(x-p)和10nwxw同号;即x在n指向的半空间中时,010nwxw 即x在n背向的半空间中时,10nwxw(22l-12l)P(2w|x)则x21ww 其中11l-21l0,22l-12l0.即1121221221)|()|(llllxwPxwP则x21ww 决策 自然状态 1w 2w 1 11l=),(11wl 12l=),(21wl 2 21l=),(12wl 22l=),(22wl 由得:若112122122211)(
6、)|()()|(llllwPwxPwPwxP则x21ww 即:若:112122121221)()()|()|(llllwPwPwxpwxp则x21ww 可得最小风险 Bayes 决策识别规则。八:已知某一类训练样本集的每一个样本都是由独立抽样实验采集的,类条件概率密度服从正态分布,以一维情况为例,求最大似然估计对未知参数(均值,方差)的估计过程及结果 解:由题意 单变量正态分布的形式为 P(x|)=)(21exp212x 其中均值和方差2为未知参数,即要估计的参数为TT,221,用于估计的样本是 x=Nxx.1 则似然函数 L()=p(|x)=0)(1),|.(12211NNxxp 最大似然估
7、计是下列方程组的解:NkkxpH1)|(ln)(=0 又从可得:2122)(212ln21)|(lnkxxp 分别对两个未知参数求偏导,得)(2121)(1)|(ln2122212kkkxxxp 因此最大似然估计是以下方程组的解 Nkkx1120)(1 0)(11122212NkNkkx 解得:NkkxN111 222)(1kxN 九:最邻近决策和 K-近邻决策的思想是什么 最邻近决策:对于一个新样本,把它逐一与已知样本比较,找出距离最新样本最近的已知样本,以该样本的类别作为新样本的类别,这就是最邻近法 已知样本集Ns=(1x,1).(Nx,1),其中,ix是样本 i 的特征向量,i是它对应的
8、类别,设有 C 个类,即i1,2C。定义两个样本间的距离度量(ix,jx),比如可采用欧式距离(ix,jx)=|ix-jx|。对未知样本x,求Ns中与之距离最近的样本,设为x(对应的类别为),即(x,x)=),(min.2,1jNjxx 则将x决策为类。这种决策方法称为最邻近决策 最近邻法渐进错误率 P,Bayes 错误率*P,C 类别数,则*P=P=*P(2-*1pcc)即:P 最坏不会超出两倍的*P,最好有可能接近或达到*P K 近邻决策 选择前若干个离新样本最近的已知样本,用他们的类别投票来决定新样本的类别,习惯把参加投票的近邻样本个数记作 k,称作 k 近邻法 设有 N 个已知样本属于
9、 C 个类iw,i=1C,考察新样本x在这些样本的前 K 个近邻,设其中有ik个属于iw类,则iw类的判别函数就是)(xgi=ik,i=1C 决策规则是:若)(xgk=)(max.1xgiCi则xkw k-近邻法仍满足的上界关系 但随着 k 的增加,上界将逐渐降低,当 k 趋于无穷大时,上界和下界碰到一起,k 近邻法就达到了贝叶斯错误率 十:主成分分析方法的基本原理是什么?推导变换矩阵的组成 基本原理 1 从一组特征中计算出一组按重要性从大到小排列的新特征,他们是原有特征的线性组合,并且相互之间是互不相关的。2 记1xpx为 p 个原始特征,设新特征i,i=1p 是这些原始特征的线性组合 i=
10、pjTijijxaxa1 为了统一i的尺度要求线性组合系数的模为 1,即Tiaia=1 则TAx 其中是由新特征i组成的向量,A是特征变换矩阵。要求解的是最优的正交变换A它使新特征i的方差达到极值 变换矩阵A的组成 1A=(1apa)最优的1a是的最大本征值对应的本征向量,2a第二大 变换矩阵A的各个列向量是由的正交归一的本征向量组成的,因此TA=1A,即A是正交矩阵。2.1a,第一主成分1=pjTjijxaxa11(方差最大,模为 1)方差:var(1)=E21-E12=11axxaETT-11axExaETT=Ta11a 其中是x的协方差矩阵。E是数学期望 要在约束条件Ta11a=1 下最大化1的方差,等价于下列拉格朗日函数的极值)(1af=Ta11a-v(Ta11a-1),v是拉格朗日乘子 将其对1a求导,并令他等于零,得1a满足1a=v1a 这是的特征方程,即1a一定是的本征向量,v是对应的本征值 则 var(1)=v 3.第二主成分2满足:与1同样的方差最大,模为 1,与1不相关 即 E21-E2E1=0,代入i=pjjijxa1=Tiax整理得:Ta21a=0,又1a=v1a且不相关的要求等价于2a和1a正交:Ta21a=0 在Ta21a=0 和Ta22a=1 的约束条件下最大化2的方差可得2a是的第二大本征值对应的本征向量。
copyright@ 2008-2023 冰点文库 网站版权所有
经营许可证编号:鄂ICP备19020893号-2