第2章 贝叶斯决策理论与统计判别方法.docx
《第2章 贝叶斯决策理论与统计判别方法.docx》由会员分享,可在线阅读,更多相关《第2章 贝叶斯决策理论与统计判别方法.docx(9页珍藏版)》请在冰点文库上搜索。
第2章贝叶斯决策理论与统计判别方法
第2章贝叶斯决策理论与统计判别方法
模式识别第2章贝叶斯决策理论与统计判别方法武汉大学电子信息学院1
贝叶斯决策理论模式识别学习指南?
?
主要内容是说明分类识别中为什么会有错分类,在何种情况下会出现错分类?
错分类的可能性会有多大?
在理论上指明了怎样才能使错分类最少?
?
?
不同的错分类造成的危害是不同的,有的错分类种类造成的危害更大,因此控制这种错分类则是更重要的。
为此引入了一种“风险”与“损失”概念,希望做到使风险最小。
要着重理解“风险”与“损失”的概念,以及在引入“风险”概念后的处理方法。
武汉大学电子信息学院2
贝叶斯决策理论模式识别理解这一章的关键是要正确理解先验概率,类概率密度函数,后验概率这三种概率,对这三种概率的定义,相互关系要搞得清清楚楚。
Bayes公式正是体现这三者关系的式子,要透彻掌握。
武汉大学电子信息学院3
贝叶斯决策理论模式识别2.1引言?
?
模式识别是一种分类(classify)问题,即根据识别对象所呈现的观察值,将其分到某个类别中去。
统计决策理论是处理模式分类问题的基本理论之一,对模式分析和分类器(classifier)的设计起指导作用。
贝叶斯决策理论是统计模式识别中的一个基本方法,我们先讨论这一决策理论,然后讨论涉及统计判别方法的一些基本问题。
武汉大学电子信息学院4
贝叶斯决策理论模式识别特征向量与特征空间?
?
例:
苹果的直径尺寸限定在7厘米到15厘米之间,它们的重量在3两到8两之间变化。
如果直径长度x用厘米为单位,重量y以两为单位。
那么,由x值从7到15,y值从3到8包围的二维空间就是对苹果进行度量的特征空间。
?
?
总体概率分布已知?
?
要决策分类的类别数一定武汉大学电子信息学院5
贝叶斯决策理论模式识别贝叶斯决策理论所要讨论的问题?
?
各类别ωi=1,2,…,c的先验概率P(ωi)及类条件概率密度函数p(x|ωi)已知的条件下,如何对某一样本按其特征向量分类的问题。
?
?
几种常用的决策规则?
?
正态分布时统计决策的问题以及错误概率等问题武汉大学电子信息学院6
贝叶斯决策理论模式识别2.2几种常用的决策规则?
?
不同的决策规则反映了分类器设计者的不同考虑,对决策结果有不同的影响。
其中最有代表性的是:
基于最小错误率的贝叶斯决策基于最小风险的贝叶斯决策武汉大学电子信息学院7
贝叶斯决策理论模式识别2.2.1基于最小错误率的贝叶斯决策?
?
分类识别中为什么会有错分类,在何种情况下会出现错分类?
错分类的可能性会有多大?
?
?
当某一特征向量值X只为某一类物体所特有,即对其作出决策是容易的,也不会出什么差错。
问题在于出现模棱两可的情况。
此时,任何决策都存在判错的可能性。
?
?
条件概率:
P(*|#)是条件概率的通用符号,P(ωK|X)是表示在X出现条件下,样本为ωK类的概率。
武汉大学电子信息学院8
贝叶斯决策理论模式识别先验概率,后验概率,概率密度函数?
?
先验概率P(ω1)及P(ω2)由先验知识在识别前就得到的概率?
?
后验概率P(ω1|X)?
?
概率密度函数P(X|ω1)及P(X|ω2)?
?
联合概率P(X,ω)i武汉大学电子信息学院9
贝叶斯决策理论模式识别先验概率,后验概率,概率密度函数?
?
Bayes(贝叶斯)公式是根据联合概率这一概念推出的P(x,ω)=P(x|ω)P(ω)=P(ω|x)P(x)iiii贝叶斯公式实质上是通过观察x,把状态的先验概率P()Ζ转化为后验概率P(|Ζx)ii武汉大学电子信息学院10
贝叶斯决策理论模式识别图2.1武汉大学电子信息学院11
贝叶斯决策理论模式识别图2.2武汉大学电子信息学院12
贝叶斯决策理论模式识别基于最小错误率的贝叶斯决策基于最小错误概率的贝叶斯决策理论就是按后验概率的大小作判决的
(1)后验概率:
如果则武汉大学电子信息学院13
贝叶斯决策理论模式识别
(2)如果则(3)似然比:
如果则否则武汉大学电子信息学院14
贝叶斯决策理论模式识别(4)似然比写成相应的负对数形式:
如果则否则武汉大学电子信息学院15
贝叶斯决策理论模式识别例2.1?
?
假设在某地区切片细胞中正常(ω1)和异常(ω2)两类的先验概率分别为P(ω1)=0.9,P(ω2)=0.1。
现有一待识别细胞呈现出状态x,由其类条件概率密度分布曲线查得p(x|ω1)=0.2,p(x|ω进行分类。
2)=0.4,试对细胞x?
?
解:
利用贝叶斯公式,分别计算出状态为x时ω1与ω2的后验概率武汉大学电子信息学院16
贝叶斯决策理论模式识别P(ω1|x)=0.818>P(ω2|x)=0.0182因此判定该细胞为正常细胞比较合理。
武汉大学电子信息学院17
贝叶斯决策理论模式识别基于最小错误率的贝叶斯决策的证明?
?
平均错误率:
在观测值可能取值的整个范围内错识率的均值武汉大学电子信息学院18
贝叶斯决策理论模式识别两类别情况:
?
?
当P(w2|x)>p(w1|x)时决策为w2,对观测值x有P(w1|x)概率的错误率R1:
作出w1决策的所有观测值区域,条件错误概率为p(w2|x)R2:
条件错误概率为p(w1|x)。
因此平均错误率P(e)可表示成武汉大学电子信息学院19
贝叶斯决策理论模式识别?
?
在R1区内任一个x值都有P(w2|x)<P(w1|x),在R2区内任一个x值都有P(w1|x)<P(w2|x)错误率在每个x值处都取小者,因而平均错误率P(e)也必然达到最小,这就证明了按(2-2)式作出的决策,其平均错误率为最小。
?
?
P(e)也可以(2-8)式写成(2-9)武汉大学电子信息学院20
模式识别?
?
错误率为图中两个划线部分之和,对应的错误率区域面积为最小。
武汉大学电子信息学院贝叶斯决策理论21
贝叶斯决策理论模式识别C类别情况:
?
?
最小错误率贝叶斯决策规则:
?
?
如果?
?
则X∈ωi(2-10)?
?
用先验概率与类条件概率密度相联系的形式,得:
?
?
如果武汉大学电子信息学院22(2-11)
贝叶斯决策理论模式识别?
?
计算平均正确分类概率P(c)即(2-12)?
?
平均错误率:
P(e)=1-P(c)武汉大学电子信息学院23
贝叶斯决策理论模式识别例:
应用贝叶斯决策的肤色提取武汉大学电子信息学院24
贝叶斯决策理论模式识别?
?
利用贝叶斯原理,可以建立简单的肤色模型,并用来从图像中提取手部、脸部肤色,进而得到人的身体姿势。
?
?
1.先在一副训练图象中手工描绘出肤色区域,?
?
2.然后统计每种颜色点在肤色区域中出现的次数和在区域外出现的次数的比值,作为这种颜色是肤色的概率武汉大学电子信息学院25
贝叶斯决策理论模式识别?
?
3.这样就得到了一张查找表,表中的每个元素是这个点是肤色的概率。
我们就得到了一个点是不是肤色的概率分布。
以上的“颜色训练结果窗口”就是这样一张表的直观显示。
实际表格是三维的(HSI颜色空间,32×32×8)把这个条形区域分成八块以后,每一块是个32×32的正方形,表示HS空间下的概率分布,颜色越亮,说明这种颜色是肤色的概率越大。
?
?
4.再加上域值限制之后,认为只有概率大于一定域值的才是肤色。
武汉大学电子信息学院26
贝叶斯决策理论模式识别2.2.2基于最小风险的贝叶斯决策?
?
使错误率最小并不一定是一个普遍适用的最佳选择。
?
?
一个与损失有关联的,更为广泛的概念——风险(2-13)?
?
观测样本X实属类别j,而被判为状态i时所造成的损失,?
?
Ri则表示了观测值X被判为i类时损失的均值?
?
分类则依据Ri,(i=1,…,c)中的最小值,即最小风险来定。
武汉大学电子信息学院27
贝叶斯决策理论模式识别例:
病理切片?
?
ω1表示病理切片正常?
?
ω2表示病理切片异常?
?
P(ω1|X)与P(ω2|X)分别表示了两种可能性的大小?
?
:
X确实是癌细胞(ω2),但被判作正常(ω1)损失?
?
:
X确实是正常(ω1),却被判定为异常(ω2)损失武汉大学电子信息学院28
贝叶斯决策理论模式识别定义:
?
?
自然状态:
指待识别对象的类别A={α1,α2,……αn}?
?
状态空间:
由所有自然状态所组成的空间,Ω={ω1,ω2,…,ωc}?
?
决策:
不仅包括根据观测值将样本划归哪一类别(状态),还可包括其它决策,如“拒绝”等?
?
决策空间:
由所有决策组成的空间武汉大学电子信息学院29
贝叶斯决策理论模式识别?
?
损失函数λ(α|ω)(或写成λ(α,ω))ijij?
?
观测值X条件下的期望损失R(α|X),i?
?
?
?
i=1,2,…,a(2-14)?
?
R:
条件风险i武汉大学电子信息学院30
贝叶斯决策理论模式识别最小风险贝叶斯决策规则?
?
如果则α=αk(2-15)?
?
期望风险R?
?
(2-16)?
?
它表示对所有X取值所作的决策α(X)所带来的平均风险武汉大学电子信息学院31
贝叶斯决策理论模式识别最小风险贝叶斯决策步骤?
?
根据贝叶斯公式计算出后验概率:
?
?
j=1,…,x?
?
利用计算出的后验概率及决策表,计算出采取α,i=1,…,a的条件风险ij=1,…,x?
?
找出使条件风险最小的决策αk,即武汉大学电子信息学院32
贝叶斯决策理论模式识别例2.2?
?
P(ω1)=0.9,P(ω2)=0.1p(X|ω1)=0.2,p(X|ω2)=0.4λ11=0,λ12=6,λ21=1,λ22=0?
?
后验概率?
?
P(ω1|X)=0.818,P(ω2|X)=0.182武汉大学电子信息学院33
贝条叶斯件决风策险理论模式识别?
?
由于R(α1|X)>R(α2|X)判待识别的细胞X为ω2类——异常细胞?
?
比较例2.1?
?
P(ω1|X)=0.818,P(ω2|X)=0.182,正常细胞武汉大学电子信息学院34
贝叶斯决策理论模式识别两种决策方法之间的关系?
?
基于最小错误率的决策是基于最小风险决策的一个特例?
?
设损失函数为?
?
式中假定对C类只有C个决策,即不考虑“拒绝”等其它情况,(2-17)表明,当作出正确决策(即i=j)时没有损失,而对于任何错误决策,其损失均为1。
这样定义的损失函数称为0—1损失函数。
武汉大学电子信息学院35
贝叶斯决策理论模式识别两种决策方法之间的关系?
?
根据(2-14)式条件风险为?
?
最小错误率贝叶斯决策就是在0—1损失函数条件下的最小风险贝叶斯决策武汉大学电子信息学院36
贝叶斯决策理论模式识别图2.4武汉大学电子信息学院37
贝叶斯决策理论模式识别图2.3与图2.4武汉大学电子信息学院38
贝叶斯决策理论模式识别2.2.4判别函数、决策面与分类器设计?
?
决策域:
待识别的特征向量落在哪个决策域,该样本就被判为哪一类。
?
?
决策面:
决策域的边界面?
?
判别函数:
用于表达决策规则的某些函数武汉大学电子信息学院39
贝叶斯决策理论模式识别例:
两类别问题按最小错误率作决策?
?
相应的判别函数:
g(X)=P(ω|X),i=1,2ii?
?
决策面方程:
g1(X)=g2(X)?
?
决策规则?
?
如果g(X)>g(X)i,j=1,2且i≠j则ijX∈ωi武汉大学电子信息学院40
贝叶斯决策理论模式识别多类别情况决策规则:
?
?
如果?
?
则将X归于ω类i?
?
决策面:
?
?
当ω的决策域与ωj的决策域相邻时,以下关系i决定了相应的决策面?
?
g(X)=g(X)ij武汉大学电子信息学院41
贝叶斯决策理论模式识别?
?
图2.5(a)表示了一个三类别问题用一维特征空间时的所有决策边界,而图2.5(b)则表示了相应的二维特征空间中的决策边界武汉大学电子信息学院42
贝叶斯决策理论模式识别?
?
两类别问题分类器的框图:
武汉大学电子信息学院43
贝叶斯决策理论模式识别?
?
多类别分类器的结构框图:
武汉大学电子信息学院44
贝叶斯决策理论模式识别§2.3正态分布时的统计决策?
?
具体的决策域划分与样本的概率分布有关。
下面结合正态分布概率密度函数进行讨论,在讨论结束时我们会发现从中可以得到不少启示。
武汉大学电子信息学院45
贝叶斯决策理论模式识别2.3.1正态分布概率密度函数的定义与性质?
?
单变量正态分布?
?
正态分布是指一个随机实数度量值在整个实数域上的分布规律,属于概率密度函数类武汉大学电子信息学院46
贝叶斯决策理论模式识别多元正态分布?
?
多元正态分布的概率密度函数:
?
?
μ是X的均值向量,d维μ=E{X}=[μ1,μ2,…,μd]T?
?
∑是d×d维协方差矩阵,而∑-1是∑的逆矩阵,|∑|是∑的行列式∑=E{(X-μ)(X-μ)T}武汉大学电子信息学院47
贝叶斯决策理论模式识别多元正态分布的重要的特性?
?
多元正态分布的概率密度函数中的元就是我们前面说得特征向量的分量数,也就是维数。
?
?
多维向量:
每一个分量都是随机变量,服从正态分布。
但是一个二维随机向量不仅要求考虑每个分量单独的分布,还要考虑两个随机变量之间的关系——相关性武汉大学电子信息学院48
贝叶斯决策理论模式识别例:
两个二元正态分布武汉大学电子信息学院49
贝叶斯决策理论模式识别协方差矩阵:
?
?
用E[x1-μ1)(x2-μ2)]来衡量这种相关性,称为协方差矩阵?
?
非对角元素正表示了两个分量之间的相关性?
?
主对角元素则是各分量本身的方差?
?
协方差矩阵的重要属性:
正定的对称矩阵武汉大学电子信息学院50
贝叶斯决策理论模式识别多元正态分布的性质?
?
参数μ与∑对分布具有决定性,记作p(X)~N(μ,∑)。
?
?
等密度点分布在超椭球面上。
?
?
等密度点对应:
(x-μ)T∑-1(x-μ)=常数武汉大学电子信息学院51
贝叶斯决策理论模式识别?
?
向量X到向量μ的Mahalanobis距离的平方r2=(x-μ)T∑-1(x-μ)?
?
多元正态分布的离散程度由参数|∑|1/2决定,这与单变量时由标准差σ决定是对应一致的。
?
?
不相关性等价于独立性。
—不相关:
E[xx]=E[x]〃E[x]ijij—相关:
(x,x)=p(x)p(x),ijij武汉大学电子信息学院52
贝叶斯决策理论模式识别?
?
边缘分布和条件分布的正态性多元正态分布的边缘分布和条件分布仍然是正态分布。
?
?
线性变换的正态性Y=αTx,则Y的分布仍然是正态的。
武汉大学电子信息学院53
贝叶斯决策理论模式识别2.3.2正态分布概率模型下的最小错误率贝叶斯决策?
?
如果则X∈ωi?
?
判别函数为p(x|ω)p(ω),采用对数形式ii武汉大学电子信息学院54
贝叶斯决策理论模式识别决策规则:
?
?
相应的决策面方程为武汉大学电子信息学院55
贝叶斯决策理论模式识别最小距离分类器情况?
?
定义:
每个样本以它到每类样本均值的欧氏距离的最小值确定其分类。
?
?
如果?
?
则X∈ωi?
?
样本分布满足以下正态分布条件时,最小错误分类器与(2-39)表示的决策规则相当:
武汉大学电子信息学院56
贝叶斯决策理论模式识别?
?
在这种条件下,由于|∑|=σ2d及∑2-37)得i-1=σ2I,代入(武汉大学电子信息学院57
贝叶斯决策理论模式识别?
?
由于决策是根据各判别函数之间的大小,因而在(先2-验48概)中率一相些等与这类个别条无件关,的判项别可函以数忽可略简,化再成加上?
?
最个小典距离分类器就可看作模板匹配。
每个类有一样型样本(即均值向量),称为模板,而待分类氏本距X离只最要短按欧氏距离计算与哪个模板最相似(欧)即可作决定。
武汉大学电子信息学院58
贝叶斯决策理论模式识别线性分类器?
?
∑=σ2Ii=1,…,ci?
?
其中武汉大学电子信息学院59
贝叶斯决策理论模式识别决策面方程?
?
利用?
?
以及?
?
代入(2-46)并整理,可得WT(X-X0)=0(2-47)W=μ-μij武汉大学电子信息学院60
贝叶斯决策理论模式识别另一种简单情况?
?
∑i=∑?
?
表示在二维特征空间的情况武汉大学电子信息学院61
贝叶斯决策理论模式识别判别函数?
?
如果c类先验概率都相等,其中武汉大学电子信息学院62
贝叶斯决策理论模式识别决策面方程?
?
g(X)-g(X)=0即ij?
?
其中武汉大学电子信息学院63
贝叶斯决策理论模式识别线性分类器总结?
?
在正态分布条件下,基于最小错误率贝叶斯决策只要能做到两类协方差矩阵是一样的,那么无论先验概率相等不相等,都可以用线性分界面实现。
?
?
小欧氏距离分类器则要求正态分布协方差矩阵为单位阵,先验概率相等。
武汉大学电子信息学院64
贝叶斯决策理论模式识别各类协方差矩阵不相等的情况?
?
∑≠∑i,j=1,2,…,cij(d×d矩阵)(d维列向量)武汉大学电子信息学院65
贝叶斯决策理论模式识别决策面方程(当两个决策域毗邻)?
?
根据g(X)-g(X)=0有ij武汉大学电子信息学院66
贝叶斯决策理论模式识别图2.10武汉大学电子信息学院67
贝叶斯决策理论模式识别讨论与分析?
?
分析了在何种正态分布条件下,最小错误率贝叶斯决策具有线性决策面。
?
?
最小距离分类器与统计上最小错误率决策上一致的条件。
武汉大学电子信息学院68
贝叶斯决策理论模式识别本章小结?
?
主要的知识:
使用什么样的决策原则我们可以做到错误率最小Bayes决策错分类最小并不一定是一个识别系统最重要的指标风险,损失学习获得对样本概率分布的估计武汉大学电子信息学院69
贝叶斯决策理论模式识别?
?
贝叶斯决策理论是统计模式识别的重要理论基础?
?
理论上讲,贝叶斯决策方法是最优的(在最小错误率或最小风险意义上)?
?
应用中:
需要首先得到先验概率和类条件概率密度?
?
方法一:
先估计概率密度,后求解决策规则?
?
方法二:
若已知或可假设概率密度为某种形式(比如正态分布),可先求出判决函数形式,再从样本估计其中的参数。
?
?
方法三:
直接选择或假设某种判决函数形式,用样本确定其参数。
武汉大学电子信息学院70
贝叶斯决策理论模式识别习题1.试后简验述概先率验等概概率念,间类的条关件系概:
率密度函数和2.试后写验出概利率用的先公验式概率和分布密度函数计算3.EX2.54.EX2.155.写的出判最别小函错数误(率两和类最问小题风)险。
决策规则相应6.用白M细a胞tl的ab浓计度算来两判类断识病别人问是题否:
患根血据液血病液。
中武汉大学电子信息学院71