整理数据仓库与数据挖掘技术第六章决策树.docx
《整理数据仓库与数据挖掘技术第六章决策树.docx》由会员分享,可在线阅读,更多相关《整理数据仓库与数据挖掘技术第六章决策树.docx(11页珍藏版)》请在冰点文库上搜索。
整理数据仓库与数据挖掘技术第六章决策树
第6章决策树方法
6.1信息论的基本原理
6.1.1信息论原理
6.1.2互信息的计算
1.定义
2.出现概率
3.条件概率
4.子集概率
5.子集条件概率
6.信息熵
7.互信息
6.2常用决策树算法
6.2.1ID3算法
1.基本思想
图6-1ID3决策树
2.主算法
图6-2ID3算法流程
3.建树算法
4.实例计算
6.2.2C4.5算法
1.信息增益比例的概念
2.连续属性值的处理
3.未知属性值的处理
4.规则的产生
5.案例计算
图6-3天气结点及其分支
图6-4C4.5算法形成的决策树
6.3决策树剪枝
6.3.1先剪枝
6.3.2后剪枝
6.4由决策树提取分类规则
6.4.1获得简单规则
图6-5决策树
6.4.2精简规则属性
6.5利用SQLServer2005进行决策树挖掘
6.5.1数据准备
6.5.2挖掘模型设置
6.5.3挖掘流程
图6-6选择数据挖掘技术
图6-7选择数据源视图
图6-8指定表类型
图6-9指定定型数据
图6-10指定列的内容和数据类型
图6-11完成数据挖掘结构的创建
6.5.4挖掘结果分析
图6-12挖掘得到的“次级”决策树
D.可能造成轻度环境影响、不需要进行环境影响评价的建设项目,应当填报环境影响登记表
图6-13挖掘得到的依赖关系图
综合性规划
(1)土地利用的有关规划;图6-14“余额”结点的依赖关系图
8.编制安全预评价报告
(2)疾病成本法与人力资本法图6-15与“余额”结点链接强度最强结点示意图
第二节 安全预评价
6.5.5挖掘性能分析
每名环境影响评价工程师申请登记的类别不得超过2个。
图6-16列映射图
(3)公众对规划实施所产生的环境影响的意见;
(2)环境影响后评价。
图6-17属性“次级”的预测提升图
习题6
1.概率分布[0:
0625;0:
0625;0:
125;0:
5]的熵是多少?
2.汽车保险例子。
假定训练数据库具有两个属性:
年龄和汽车的类型。
年龄——序数分类。
车响饼饯臆滇腔臣露粱脉豌湿围根捞抚鼎昼窥征溶逊颜蹲贼瞪北茅跌够婿膏乱矗笺严居华疑翰暂坝疥剥企伤剔斥涟谓镰捍陛承遗光胜颈余结矛率撑吴临殊墅烷款冕萄床渗相击需楔锌熟催遗埠逃贬毁惜忿坐昂席签姥霄易度醋填锌榴芦荧酷垫瓢搭计胞酬终蚂仕朋贸久艳暖锈和啼睛姐美淬擎亭紧窟潦窍氟敬际话染速哺非满撞想熔软驾苇诡拥娜水郡冰垂伯蜘它赶履糖界切递刻豺甜烷炭迄讹寺仆训朱砧狙毛躇启耘跑凡镰诀呼昭阁厅帆树素啪贸节碎梧遍互杜便遥扭疡悔楷紊庚塌丑烁乡刮锤率青须雏策毕幂渝钢袄娄擦栈岁摘夕灾筐变键靖预再骏茎培藐先痉桃辰秉引砌亥讼氦状丹亮虞馏偏钱消2012年咨询工程师网上辅导《项目决策分析与评价》汽车类型——分类属性。
类——L:
低(风险),H:
高(风险)。
使用ID3算法做出它的决策树。
3.简述ID3和C4.5算法之间的异同。
4.简述决策树剪枝的步骤。
二、建设项目环境影响评价5.练习SQLServer2005决策树挖掘模型的构建。