数据挖掘复习题和答案.docx
《数据挖掘复习题和答案.docx》由会员分享,可在线阅读,更多相关《数据挖掘复习题和答案.docx(18页珍藏版)》请在冰点文库上搜索。
数据挖掘复习题和答案
一、考虑表中二元分类问题的训练样本集
1.整个训练样本集关于类属性的熵是多少?
2.关于这些训练集中a12的信息增益是多少?
3.对于连续属性a3,计算所有可能的划分的信息增益。
4.根据信息增益,a123哪个是最佳划分?
5.根据分类错误率,a12哪具最佳?
6.根据指标,a12哪个最佳?
答1.
P(+)=4/9P(−)=5/9
−4/92(4/9)−5/92(5/9)=0.9911.
答2:
(估计不考)
答3:
答4:
a1.
答5:
a1:
=2/9.
a2:
=4/9.
,a1.
答6:
二、考虑如下二元分类问题的数据集
1.计算信息增益,决策树归纳算法会选用哪个属性
2.计算指标,决策树归纳会用哪个属性?
这个答案没问题
3.从图4-13可以看出熵和指标在[0,0.5]都是单调递增,而[0.5,1]之间单调递减。
有没有可能信息增益和指标增益支持不同的属性?
解释你的理由
,Δ,
,
(a)(b).
贝叶斯分类
1.P(A=1|−)=2/5=0.4,P(B=1|−)=2/5=0.4,
P(C=1|−)=1,P(A=0|−)=3/5=0.6,
P(B=0|−)=3/5=0.6,P(C=0|−)=0;P(A=1)=3/5=0.6,
P(B=1)=1/5=0.2,P(C=1)=2/5=0.4,
P(A=0)=2/5=0.4,P(B=0)=4/5=0.8,
P(C=0)=3/5=0.6.
2.
3.P(A=0)=(2+2)/(5+4)=4/9,
P(A=0|−)=(3+2)/(5+4)=5/9,
P(B=1)=(1+2)/(5+4)=3/9,
P(B=1|−)=(2+2)/(5+4)=4/9,
P(C=0)=(3+2)/(5+4)=5/9,
P(C=0|−)=(0+2)/(5+4)=2/9.
4.P(A=0=1,C=0)=K
5.当的条件概率之一是零,则估计为使用估计概率的方法的条件概率是更好的,因为我们不希望整个表达式变为零。
1.P(A=1)=0.6,P(B=1)=0.4,P(C=1)=0.8,P(A=
1|−)=0.4,P(B=1|−)=0.4,P(C=1|−)=0.2
2.
R:
(A=1=1,C=1).
P()P(−).,P()=P()P(+)(R)P(−)=P(−)P(−)(R).
P(+)=P(−)=0.5P(R),R
P()P(−).
P()=P(A=1)×P(B=1)×P(C=1)=0.192
P(−)=P(A=1|−)×P(B=1|−)×P(C=1|−)=0.032
P(),(+).
3.
P(A=1)=0.5,P(B=1)=0.4P(A=1=1)=P(A)×
P(B)=0.2.,AB.
4.
P(A=1)=0.5,P(B=0)=0.6,P(A=1=0)=P(A=1)×P(B=0)=0.3.AB.
5.
P(A=1=1)=0.2P(A=1)=0.6
P(B=1=+)=0.4.P(A=1)
P(A=1|−)P(A=1=1),AB
.
三、使用下表中的相似度矩阵进行单链和全链层次聚类。
绘制树状况显示结果,树状图应该清楚地显示合并的次序。
s1,s2,c1,c2.
A2:
=16/32=50.0%(
).
A4:
I.
I=5,5/32=15.6%.