ImageVerifierCode 换一换
格式:DOCX , 页数:26 ,大小:93.47KB ,
资源ID:12543316      下载积分:5 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-12543316.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(CPDA考试应用模拟.docx)为本站会员(b****8)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

CPDA考试应用模拟.docx

1、CPDA考试应用模拟CPDA考试应用模拟者进行聚类分析?给出你的理由。算法2因子分析.xlsx答案解析:(1)因子分析选择隐含因子数为3,分别代表动作片、爱情片、动画片的影响评分因子。(2)可以,这290人对电影的偏好有区别,可以进行聚类,相关性分析后排除共线性的影响再进行聚类。3.某超市为了优化商品摆放结构,对近期顾客购买的商品类型进行了统计,如附表所示。(1)写出所有有效强关联规则(minsupport=10%,minconfidence=50%);(2)结合实际情况分析顾客喜欢的商品搭配,并对该超市提出合理的建议。算法3关联分析.xlsx答案解析:关联规则分析中设置参数(minsuppo

2、rt=10%,minconfidence=50%),结果中强关联规则通过调整显示条目全部写出(重复的删除)。结合实际情况分析要写详细。4.某市为调查驾驶员视力情况(“1”表示视力正常,“0”表示有视力缺陷)、年龄、是否有驾驶教育经历(“1”表示有,“0”表示没有),这三个因素对是否曾引起交通事故(“1”表示发生过,“0”表示未发生过)的影响,随机抽样调查了45名驾驶员,得到数据如下:(1)建立模型分析驾驶员视力情况、年龄、是否有驾驶教育经历对是否曾引起交通事故的影响,写出详细的思路过程。(2)若要应用此模型预测某批驾驶员中可能会引起过交通事故的人都有哪些,则还需要进行的研究步骤有哪些?请说明。

3、算法4逻辑回归.xlsx答案解析:逻辑回归,数据预处理包括分析共线性和异常值等,数据分为训练数据和测试数据,综合训练误差和测试误差评价模型。第二问要收集数据、处理数据、应用模型直接预测。-一、 计算题(题数:4,共 100.0 分)1.1993-2007年相关经济数据如附表所示。设定国内生产总值为x1,地产投资总额为x2,全国居民消费水平为x3、全社会固定资产投资房屋竣工面积为x4,作为自变量;全国房屋销售均价设为Y,作为因变量。建立如下的多元线性回归模型:y=b0+b1*x1+b2*x2+b3*x3+b4*x4+b0,b1,b2,b3,b4是未知参数,是剩余残差,且E()=0,与四个自变量无

4、关。(1)求出参数b0,b1,b2,b3,b4,并评判模型拟合优度和实际意义,写出详细的分析依据和思路过程;(2)根据(1)对模型进行修正。多元线性回归.xlsx答案解析:(1)直接做线性回归,可得各个参数。通过R2,F、T检验,p值等分别分析模型。系数在经济意义上存在不合理性,可能是共线性的影响。(datahoop平台会删除共线的变量,所以这里用excel或spss等做回归。)(2)相关性分析和解释,去掉一些变量,重新做线性回归(在Datahoop平台上直接做也可以,平台会自动删除共线的变量)。2.为了解电影票房的影响因素有哪些,某出品人搜集了2010年至2013年间中国电影发放放映协会统计

5、的过千万票房的国产电影相关统计指标,共涉及275部影片。具体数据如附表所示。Datahoop上传测试集:电影票房数据(2010-2013).xlsxDatahoop上传训练集:电影票房数据(2010-2013).xlsx对数据进行预处理(包括缺失值、数据类型、离散化等),选择决策树模型进行拟合,并检验和分析模型。要求写出详细的思路和过程。答案解析:1.影片票房:影片票房是本次模型建模的因变量。通过对选取数据的统计分析,将票房数据进行分类,一共分为8个层次,分类情况如表所示:等级 1 2 3 4 5 6 7 8范围 1000万 2000万 3000万 6000万 1亿万 1亿9000万 3亿 2

6、0亿 2000万 3000万 6000万 1亿万 1亿9000万 3亿 乘客IDSurvived = 是否生还Pclass = 乘客等级(1/2/3等舱位)Name = 乘客姓名Sex = 性别Age = 年龄SibSp = 堂兄弟/妹个数Parch = 父母与小孩个数Ticket = 船票信息Fare = 票价Cabin = 客舱Embarked = 登船港口对收集进行预处理,选择适当的算法进行分析,并评价和解释模型,要求写出具体的思路过程。答案解析:本次分析选取变量包括:Survived = 是否生还、Pclass = 乘客等级(1/2/3等舱位)、Sex = 性别、Age = 年龄、Si

7、bSp = 堂兄弟/妹个数、Parch = 父母与小孩个数、Fare = 票价。理把性别进行0和1处理,female(女)转换成0,male(男)转换成1。年龄Age存在缺失值,因此对于年龄的缺失值需要进行处理,本次对年龄的缺失值用所有年龄数据的平均值进行填充。采用方法:逻辑回归,根据模型的预测结果可以看出模型的准确度还是比较好的,模型的AUC值也是比较高的。因此可以根据这些变量预测乘客生还与否。-一、 计算题1.电信公司为分析客户流失状况,为客户是否流失提供参考依据,随机选取了600名客户进行研究,得到了如附表所示一系列数据,收集到的数据包含下列字段:在网月数截止数据收集时间为止的在网月数年

8、龄客户实际年龄婚姻状况客户婚姻状况,0代表未婚,1代表已婚现地址居住时间现在地址的居住月份教育程度1:专科以下;2:本科;3:硕士;4:研究生;5:博士工作状态0:待业;1:在职性别0:女;1:男租设备0:不租;1:租IP电话0:无;1:有无线电话0:有;1:无本月话费话费具体金额语音信箱0:无;1:有网络0:无;1:有来电显示0:无;1:有呼叫等待0:无;1:有呼叫转移0:无;1:有流失状态0:未流失;1:流失 根据这些客户数据,进行数据预处理,之后分别用逻辑回归和SVM算法进行分析,对比两种算法的拟合优度,从而选择两者中更加适合的算法模型。写出分析思路和过程,并为电信公司提供客户运营的相关

9、建议。数据分析应用1电信客户流失数据.xlsx答案解析:根据逻辑回归和SVM算法对数据的不同要求,预处理要分析数据的共线性和异常值,之后分别进行逻辑回归和SVM算法分析,发现SVM的召回率、准确率、准确度等指标均较好,因此选择SVM算法。相关建议包括引入此模型分析客户,从而针对性运营等。2.选取7项经济指标作为决定经济类型的影响因素,对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)进行聚类分析(各项数据均来自2010年国家统计年鉴)。数据分析应用2省市分类.xlsx对数据进行预处理(创建新的变量等),比较说明聚成几类时聚类效果最好,写出分析思路和过程,并分析每一类的实际意义。答案解析:若

10、用k-means进行聚类,预处理要考虑共线性和异常值(数据比较少不能轻易删除异常值),且分别分析聚成2、3、4等类的效果(由平均轮廓系数判定)。-一、 计算题1.某金融机构为了研究其信用卡发放风险,收集整理了一些客户的数据,包括他们的基本信息,经济情况,以及是否拖欠还款等,具体如附表所示(已经将客户分为了训练集和测试集)。数据分析应用1测试数据.xlsx数据分析应用1训练数据.xlsx进行数据预处理,并用不同的算法模型(逻辑回归、神经网络等)分析信用卡拖欠还款情况,结合测试数据对比模型的拟合优度,要求写出具体的思路过程。答案解析:分析数据有没有缺失值异常值等,数据预处理(逻辑回归考虑共线性、神

11、经网络不考虑),分别用逻辑回归和神经网络对训练集进行拟合,由召回率、准确率等分析训练误差,接着对测试集进行预测分析得到预测值与实际值对比,求召回率、准确率等分析泛化误差。对比决定用哪个模型。2.为了研究手机好评率与品牌、价格的关系,某公司收集如附表所示数据,数据收集的信息包含手机的评论得分和评论内容以及手机品牌和价格等信息。手机数据.xlsx对数据进行预处理,选择合适的模型分析手机好评率与品牌、价格的关系,要求写出详细的思路和过程。答案解析:本案例想要通过对应分析分析不同手机品牌和不同价格区间的手机的好评情况。对应分析是研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式

12、展示。主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。适用于两个或多个定类变量。因此本案例需要对要研究的定量变量进行定性处理。本案例中品牌属于类别数据,但是其中包含汉字,因子需要进行重新编码;价格属于连续型变量,因此需要进行离散化处理。好评数不能直接代表手机的好评情况,因此为了更好地表示手机的好评情况,这里采用好评率进行分析。由于好评率计算出来仍然是一个0到1之间的连续变量,因此需要进行离散化处理。数据分析:本次分析采用datahoop1.2版本进行分析,首先对品牌和好评率进行对应分析。从分析结果可以看到数据的交叉表,以及提取的3个公

13、因子的贡献率和因子得分。从因子贡献率可以看到提取两个因子的贡献率就达到了80%以上,因此提取两个因子即可。根据对应分析的图表可以看到处于hp1也就是低好评度的品牌主要有品牌7,9,11,12。接着较低好评度品牌有3,4。较高好评度品牌包括1,5。高好评度品牌有8,10。因此品牌好评率分布为:好评率等级品牌低级ZUK,飞利浦,金立,酷派较低HTC, LG较高360,oppo高级锤子,华为这样就可以清晰地看出不同品牌的好评情况。然后对价格等级和好评率等级进行对应分析,可以看到用户评论中500-1500价格区间的手机好评率最低,500-6000价位的手机好评率也最低。1500-2000价位的手机好评

14、率较低;2000-2500价位/3000-3500价位和6000-7000价位手机好评率较高,好评率最高的是价位2500-3000价位手机和3500-4000价位。-1. 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据: 要求:(1)绘制散点图,并计算相关系数,说明二者之间的关系;(2)人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义;(3)计算判定系数,并解释其意义;(4)检验回归方程线性关系的显著性(a=0.05);(5)如果某地区的人均GDP为5000元,预测其人均消费水平;(6)求人均GDP为5000元时

15、,人均消费水平95%的置信区间和预测区间。(所有结果均保留三位小数)(25.0分)窗体顶端我的答案窗体底端答案解析:提示:(1)使用Datahoop或Excel作出散点图、相关系数,作出相关描述;(2)注意自变量与因变量的确定,利用Datahoop或Excel写出回归方程,作出回归系数实际意义的描述;(3)写出判定系数,并描述意义;(4)在a=0.05的前提下,检验方程的显著性,并做描述;(5)使用Datahoop预测功能做出结果;(6)写出置信区间和预测区间。-2. 根据以下给出的数据进行分析,本次给出鸢尾花数据,其中包含萼片长、萼片宽、花瓣长、花瓣宽、以及花的类型数据,请根据以下问题进行回

16、答。(本题数据提供在excel里面,数据分析为三份,一份训练数据,一份测试数据,一份预测数据)(1)根据训练数据,用类型_num作为因变量Y,其他变量作为自变量X,做逻辑回归,写出逻辑回归的方程。(2)根据测试数据得到的结果,写出逻辑回归的混淆矩阵,以及准确率和召回率,Accuracy和F1的值(可根据测试数据结果计算表格得到测试数据集的相应的结果)。(3)给出一组预测数据,根据训练模型结果预测,写出预测结果。(25.0分)窗体顶端我的答案窗体底端答案解析:提示: - 3. 下表为购物篮事物数据: (1)设minsupport=40%,利用Apriori算法写出所有的频繁项目集,并指出其中支持

17、度最大的二项频繁项目集。(2)在第一问基础上设minconfidence=60%,找出所有的有效强关联规则。(25.0分)窗体顶端我的答案窗体底端答案解析:提示:使用Datahoo进行Apriori分析,注意参数调整- 4. 某厨卫公司要开发一款燃气灶产品,列举出5个可作为卖点的功能属性:防风、定时、防干烧、不沾油、快速而准确地打火。该公司的产品设计人员不知道该主要开发哪项功能,分析师小李向公司提出了使用KANO模型对上述五个功能进行调研分类的想法。并得到了公司的支持。假设你是小李1.请你绘制KANO模型图来介绍对功能属性分类的思路2.请你对燃气灶的防干烧功能属性设计调查问题3.针对燃气灶的防

18、干烧功能,受访者有多少种可能的回答组合,请写出每一种回答组合所对应的属性类别符号(符号见最后一行题注)4.假设基于对240名受访者的调研,得到下表,请算出这5种功能各自的worse系数和better系数,并基于这两个系数判断这5中功能的属性类别5.请对该燃气灶的这5项功能开发提出建议注:魅力属性用符号A表示;必备属性用符号M表示;期望属性用符号O表示;可有可无属性用符号I表示;用户讨厌的属性用R表示;有问题的回答用Q表示人数功能OIMA防风118302963防干烧47783085定时22140870快速而准确地打火452010768不沾油69512989(25.0分)窗体顶端我的答案窗体底端答案解析:提示:(1)绘制KANO模型图(2)描绘通用调查问题(3)作出属性类别表(4)计算worse和better系数,并画出象限图(5)给出开发建议-

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2