数据处理考题.docx
《数据处理考题.docx》由会员分享,可在线阅读,更多相关《数据处理考题.docx(11页珍藏版)》请在冰点文库上搜索。
数据处理考题
1.主成分分析的原理,应用举例;
答:
主成分分析(principalcomponentanalysis,PCA)是一种最古老的多元统计分析技术。
主成分分析的中心目的是将数据降维,以排除众多化学信息共存中相互重叠的信息。
它是将原变量进行转换,使少数几个新变量是原变量的线性组合,同时,这些变量要尽可能多地表征原变量的数据结构特征而不丢失信息。
新变量互不相关,即正交。
(例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。
而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。
为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。
主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
)
第1步:
方差协方差矩阵或者相关系数矩阵的选择与计算
第2步:
计算选择矩阵的特征值及特征值所对应的特征向量
第3步:
计算各主成分的贡献率与累积贡献率,并确定需选留的主成分个数
第4步:
写出各主成分的表达式,并计算各样品的不同主成分值
第5步:
结合实际问题,进行主成分分析计算结果的解释、讨论与推断
2.统计假设检验的基本步骤;
3.变异系数,怎么算,有什么作用,举例;优缺点无纲量
答:
变异系数又称“标准差率”,是衡量资料中各观测值变异程度的另一个统计量。
当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。
如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。
标准差与平均数的比值称为变异系数,记为CV。
变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。
丰产田小麦的标准偏差大于一般大田产量,表面上一般大田产量更稳定,但是经计算的变异系数丰产田小麦的标准偏差小于一般大田产量,故丰产田更稳定。
4.显著性检验什么时候用单尾,什么时候用双尾;
双尾
单尾
5.举例说明什么是等方差t检验,异方差t检验,成对t检验
6.说明一元线性回归方程的原理,特点(可获得那些参数;如果理论方程y=kx+b,应该如何检验截距b和斜率k;检验中自由度怎么确定)标准偏差,可以用来求置信区间,怎么转换成线性,试一试怎么
特点:
统计书p111
例子:
食品感官评定时,测得甜度与蔗糖质量分数的关系如表6-2所示,求y对x的直线回归方程
蔗糖质量分数x/%1345.5789.5
甜度y1518192122.623.826
7.曲线方程的线性转换,转换方法有哪些?