ImageVerifierCode 换一换
格式:DOCX , 页数:16 ,大小:58.81KB ,
资源ID:15849192      下载积分:1 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-15849192.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(原数据挖掘习题.docx)为本站会员(b****6)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

原数据挖掘习题.docx

1、原数据挖掘习题ch11.讨论以下每项活动是不是是数据挖掘任务:(fgh是)(a) 依照性别划分公司的顾客。(b) 依照可获利性划分公司的顾客。(c) 计算公司的总销售额。(d) 按学生的标识号对学生数据库排序。(e) 预测掷一对骰子的结果。(f) 利用历史记录预测某公司以后的股票价钱。(g) 监视病人心率的异样转变。(h) 监视地震活动的地震波。(i) 提取声波的频率。2. (ch1)数据挖掘能够在很多数据源上进行,如关系数据库,空间数据库,多媒体数据库,文本数据库等。3. (ch1) 数据挖掘必然能够取得有趣的强关联规那么。4. (ch1) 为了提高挖掘质量,通常要进行数据预处置,包括数据清

2、理、集成、选择、变换等。5. (ch5)发烧,上呼吸道感染是(2)项集6.企业要成立预测模型,需预备建模数据集,以下四条描述建模数据集正确的选项是( B )。A 数据越多越好 B 尽可能多的适合的数据 C数据越少越好D 以上三条都正确7. 数据挖掘算法以( D )形式来组织数据。A 行 B列 C 记录 D 表格Ch28. (ch2)假定用于分析的数据包括属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70,求: 1)利用按箱平均值滑腻对以

3、上数据进行滑腻,箱的深度是3。说明你的步骤。 2)利用按箱边界值滑腻对以上数据进行滑腻,箱的深度是3。说明你的步骤。7、P98 (ch3)假定大学的数据仓库包括4个维student学生、course课程、semester学期、instructor教师,2个气宇count和avg_grade。在最低的概念层(例如关于给定的学生、课程、学期和教师组合),气宇avg_grade存下学生的实际成绩。为数据仓库画出雪花模式图8、P98 (ch3)假定数据仓库包括4个维date,spectator,location和game,2个气宇count和charge。其中,change是观众在给定的日期观看节目的

4、付费。观众能够是学生、成年人或老人,每类观众有不同的收费标准。画出该数据仓库的星形模式图10、(ch5)数据库有4个事物。设min_sup=60%,min_conf=80%TID日期购买的物品T10099/10/15K,A,D,BT20099/10/15D,A,C,E,BT30099/10/19C,A,B,ET40099/10/22B,A,Da)利用Apriori算法找出最大得频繁项集b)列出所有强关联规那么(带支持度s和置信度c)11.(参P229)假定希望分析爱喝咖啡和爱喝茶得人之间得关系。搜集一组人关于饮料偏爱的信息,汇总如下:咖啡不喝咖啡汇总茶15050200不喝茶650150800汇

5、总8002001000假设支持度和置信度阈值别离为10%,50%,评估关联规那么茶咖啡。(负相关)12.(ch5,参P224 )有如下事务数据集。试挖掘频繁项集。(最小支持度为2)TID项1a,b2bcd3acde4ade5abc6abcd7a8abc9abd10bce结果:后缀频繁项集ee,de,ade,ce,aedd,cd,bcd,acd,bd,abd,adcc,bc,abcacbbabaa13.(ch5,参P256,17)假定有一个购物篮数据集,包括100个事务和20个项。若是项a的支持度为25%,项b得支持度为90%,且项集ab得支持度为20%。令最小支持度阈值和最小置信度阈值别离为1

6、0%和60%。1)计算关联ab的置信度。依照置信度气宇,这条规那么是有趣的么?(这条规那么是不是是强关联规那么?)(80%,是)2)ab是不是有趣?(负相关,无趣)11. 求出下表的强关联规那么(ch5)IDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3orangenoodlemeatbeer4fishsoftdrinkfrozenmealbread12、(ch6)下表给出某门课程假设干学生期中和期末考试成绩期中 72 50 81 74 94 86 59 83 65 33 88 81期末 84 63 77 78 90 75 49 79

7、 77 52 74 90绘数据图。X和Y看上去具有线性联系吗?13. (ch6) 下表是对是不是购买运算机的调查表,请依照ID3算法画出是不是购买运算机的决策树。计数年龄收入学生信誉归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1老中否优买(参P94)TID有房婚姻状况年收入拖欠贷款1是单身125K否2否已婚100K否3否单身70K否4是已婚120K否5否离异95K是6否已婚60K否7是离异220K否8否单身85K

8、是9否已婚75K否10否单身90K是一客户信息如下:X=(有房=否,婚姻状况=已婚,年收入=120K)用贝叶斯分类法,预测记录的拖欠贷款类别。 (否)年收入可能的分裂点熵6065707580859095100110120125220原数据集合修正为:TID有房婚姻状况年收入拖欠贷款1是单身125K(否2否已婚100K(否3否单身70K(否5否离异95K(=是6否已婚60K(否8否单身85K(=是9否已婚75K(=否10否单身90K(P(y=0|x=1) 因此,队1可能取胜。20.(ch6,参P195,8)考虑以下数据集:实例ABC类1001-2101+3010-4100-5101+6001+7

9、110-8000-9010+10111+1)估量条件概率P(A=1|+), P(B=1|+), P(C=1|+), P(A=1|-), P(B=1|-), P(C=1|-),2)依照1)中的条件概率,利用朴素贝叶斯分类方式预测测试样本(A=1,B=1,C=1)得类标号。(+)3)比较P(A=1),P(B=1)和P(A=1,B=1),陈述AB之间的关系。(独立)14、(ch7)假设数据集D含有9个数据对象(用2维空间的点表示):A1(3,2), A2(3,9), A3(8,6), B1(9,5), B2(2,4), B3(3,10), C1(2,6), C2(9,6), C3(2,2) 采纳k-

10、均值方式进行聚类,距离函数采纳欧几里德距离,取k=3,假设初始的三个簇质心为A1,B1,和C1,求:(1)第一次循环终止时的三个簇的质心。(2)最后求得的三个簇。A2A3B2B3C2C3A14941564521B15225074158C110364174916第一次循环终止时:(A1,C3)质心为(,2)或(3,2) (B1,A3,C2),质心为:,或(9,6) (C1,A2,B2,B3), 质心为:(,)或(3,8) 平方误差E=28第二次循环A1A2A3B1B2B3C1C2C33,20494145564175219,65245115365490653,72525264010923726第二

11、次循环终止时:(A1,B2,C3)质心为(,)或(2,3) (A3,B1, C2),质心为:,或(9,6) (A2, B3 ,C1), 质心为:(,)或(3,7) 平方误差E=21第三次循环A1A2A3B1B2B3C1C2C32,323745531 5095819,65245115365490653,7254264010923737第三次循环终止时:(A1,B2,C3)质心为(,)或(2,3)不变 (A3,B1, C2),质心为:,或(9,6)不变 (A2, B3 ,C1), 质心为:(,)或(3,7)不变 平方误差E=21不变15. (ch7)已知四个点的坐标如下:点X坐标Y坐标P102P2

12、20P331P451其欧几里德距离矩阵:P1P2P3P4P10P20P30P420试进行单链、全链聚类,并画出树形图。答案:单链:P1P2,p3P4P10P2,p30P420P1P2,p3,p4P10P2,p3,p40P2,p3P2,P3,P4p2,p2,p4,p1全链:第一步同单链P1P2,p3P4P10P2,p30P40P2,p3P2,P3,P4p2,p2,p4,p1或:P2,p3P2,P3,P1p2,p2,p1,p416.请将以下属性分类:(ch7)1)用AM和PM表示的时刻(序数变量)2)按度测出得0和360之间的角度(区间标度变量)3)奥运会上授予得铜牌、银牌和金牌(序数)4)学生的性别(二元)5)用如下值表示得透光能力:不透明、半透明、透明(序数)6)外衣寄放号码(当你出席一个活动时,你常常能够将你的外衣交给某个人,然后他给你一个号码,你能够在离开时来取)(名义)17. 计算下表表示的混淆矩阵得熵和纯度簇娱乐财经国外都市国内体育合计#1110114676693#22789333827253331562#332646581051629949合计354555341943273738320418.已知四个点的相异度矩阵:点P1P2P3P4P10P20P30P40试进行单链、全链聚类,并画出树形图。

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2