1、南开20秋学期数据科学导论在线作业20秋学期(1709、1803、1809、1903、1909、2003、2009 )数据科学导论在线作业对于k近邻法,下列说法错误的是()。A:不具有显式的学习过程B:适用于多分类任务C:k值越大,分类效果越好D:通常采用多数表决的分类决策规则答案:C以下哪个不是处理缺失值的方法()A:删除记录B:按照一定原则补充C:不处理D:随意填写答案:D在一元线性回归模型中,残差项服从()分布。A:泊松B:正态C:线性D:非线性答案:B一元线性回归中,真实值与预测值的差称为样本的()。A:误差B:方差C:测差D:残差答案:DApriori算法的加速过程依赖于以下哪个策略
2、( )A:抽样B:剪枝C:缓冲D:并行答案:B数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()A:异常值B:缺失值C:不一致的值D:重复值答案:C单层感知机模型属于()模型。A:二分类的线性分类模型B:二分类的非线性分类模型C:多分类的线性分类模型D:多分类的非线性分类模型答案:A层次聚类适合规模较()的数据集A:大B:中C:小D:所有答案:C通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()A:简单函数变换B:规范化C:属性构造D:连续属性离散化答案:C例如将工资收入属性值映射到-1,1或者0,1内属于数据变换中的()A:简单函数变换B:规范化C:属性构造D:连续属性离散化答案:B在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。A:越小B:越大C:无关D:不确定答案:B考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()