R统计建模期末考试.docx
《R统计建模期末考试.docx》由会员分享,可在线阅读,更多相关《R统计建模期末考试.docx(10页珍藏版)》请在冰点文库上搜索。
R统计建模期末考试
实验报告
实验课程名称统计建模与R软件
实验项目名称统计描述性分析
年级2010级
专业信计
学生姓名陈秀美
学号1007010238
理学院
实验时间:
2013年06月11日
学生实验室守则
一、按教学安排准时到实验室上实验课,不得迟到、早退和旷课。
二、进入实验室必须遵守实验室的各项规章制度,保持室内安静、整洁,不准在室内打闹、喧哗、吸烟、吃食物、随地吐痰、乱扔杂物,不准做与实验内容无关的事,非实验用品一律不准带进实验室。
三、实验前必须做好预习(或按要求写好预习报告),未做预习者不准参加实验。
四、实验必须服从教师的安排和指导,认真按规程操作,未经教师允许不得擅自动用仪器设备,特别是与本实验无关的仪器设备和设施,如擅自动用或违反操作规程造成损坏,应按规定赔偿,严重者给予纪律处分。
五、实验中要节约水、电、气及其它消耗材料.
六、细心观察、如实记录实验现象和结果,不得抄袭或随意更改原始记录和数据,不得擅离操作岗位和干扰他人实验。
七、使用易燃、易爆、腐蚀性、有毒有害物品或接触带电设备进行实验,应特别注意规范操作,注意防护;若发生意外,要保持冷静,并及时向指导教师和管理人员报告,不得自行处理。
仪器设备发生故障和损坏,应立即停止实验,并主动向指导教师报告,不得自行拆卸查看和拼装。
八、实验完毕,应清理好实验仪器设备并放回原位,清扫好实验现场,经指导教师检查认可并将实验记录交指导教师检查签字后方可离去。
九、无故不参加实验者,应写出检查,提出申请并缴纳相应的实验费及材料消耗费,经批准后,方可补做。
十、自选实验,应事先预约,拟订出实验方案,经实验室主任同意后,在指导教师或实验技术人员的指导下进行。
十一、实验室内一切物品未经允许严禁带出室外,确需带出,必须经过批准并办理手续.
学生所在学院:
理学院专业:
信计班级:
101
姓名
陈秀美
学号
1007010238
实验组
实验时间
2013/06/11
指导教师
杨剑峰
成绩
实验项目名称
统计描述性分析
实验目的及要求:
1、学习掌握课本第三章的内容
2、选择一些统计方法对课本第161页的数据统计进行描述性分析
实验(或算法)原理:
1.偏度系数是刻画数据的对称性的指标,关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。
当数据的总体分布为正态分布时,峰度系数近似为0,当分布较正态分布的尾部更分散时,峰度系数为正,否则为负。
当峰度系数为正时,两侧极端数据较多,当峰度系数为负时,两侧极端数据较少.
2.可以使用函数hist(x)画出样本的直方图,使用density(x)(核密度估计函数)可以对已知的样本估计其密度。
3.显示多变量数据,用函数coplot(x~y|z)实现,表示在给定z值下,x关于y的散点图
4.二元函数相关性检验,使用函数cor。
test(x,y),返回值为x和y的相关系数,Ruben给出了总体相关系数的区间估计的近似逼近公式,可以得出置信区间和相关性。
实验硬件及软件平台:
pc机,R软件
实验步骤:
1.对课本上的方法进行了解和学习,选择数据统计性描述需要使用的方法
2.输入数据,编写程序,得到实验结果
3.对实验的结果进行分析
实验内容(包括实验具体内容、算法分析、源代码等等):
一.分布形状的度量:
1。
关于年龄的度量
(1)执行data_outline(Age)后得到的结果如下:
NMeanVarstd_devMedianstd_meanCVCSSUSSRR1
1913.315792.228071.492672130.342442511。
2097940.10526340952。
5
SkewnessKurtosis
0。
06361167—1.110926
其中,样本个数=19,样本均值=13.31579,样本方差=2.22807,样本标准差=1。
492672,样本中位数=13,样本标准误=0.3424425,样本变异系数=11.20979,样本矫正平方和=40.10526,样本未矫正平方和=3409,样本极差=5,样本半极差=2.5,偏度系数=0.06361167,峰度系数=-1.110926.
(2)执行data_outline(AgeF)的结果为:
NMeanVarstd_devMedianstd_meanCVCSSUSSRR1
913。
222221.9444441.394433130.464811110.5461315.55556158942
SkewnessKurtosis
-0。
1463545-1。
060058
(3)执行data_outline(AgeM)的结果为:
NMeanVarstd_devMedianstd_meanCVCSSUSSRR1
1013.42。
7111111.64654513.50。
520683312.2876524.4182052.75
SkewnessKurtosis
0。
1269424-1。
257295
(2)和(3)比较,女生年龄的右侧数据比左侧分散,男生年龄的右侧数据比左侧集中。
男生和女生年龄的数据两端比正态分布的更集中,两侧极端数据较少.
2.关于身高的度量
(1)执行data_outline(Height)的结果:
NMeanVarstd_devMedianstd_meanCVCSSUSSR
1962.3368426。
28695.12707562.81.1762328。
224791473。
164274304。
9220.7
R1SkewnessKurtosis
7。
65-0。
2596696-0.1389692
其中,样本个数=19,样本均值=62.33684,样本方差=26。
2869,样本标准差=5.127075,样本中位数=62.8,样本标准误=1.176232,样本变异系数=8.224791,样本矫正平方和=473.1642,样本未矫正平方和=74304。
92,样本极差=20。
7,样本半极差=7。
65,偏度系数=—0。
2596696,峰度系数=8.224791。
(2)data_outline(Height。
F)的执行结果:
NMeanVarstd_devMedianstd_meanCVCSSUSSR
960。
5888925。
183615.01832862.51.6727768。
282587201.468933240。
5915.2
R1SkewnessKurtosis
7。
8—0。
7238643—0。
3464949
(3)data_outline(Height.M)的执行结果:
NMeanVarstd_devMedianstd_meanCVCSSUSSRR1
1063.9124.383224.93793764.151。
5615137.726392219.44941064.3314。
77
SkewnessKurtosis
0。
04095917—0。
934876
(2)和(3)比较,女生身高的左侧数据比右侧分散,男生年龄的右侧数据比左侧分散.男生和女生年龄的数据两端比正态分布的更集中,两侧极端数据较少.
3.关于体重的度量在此就不作分析了
二.作出学生的年龄,身高,体重的直方图、密度估计曲线和正态分布密度曲线,分析数据
1.年龄直方图、密度估计曲线和正态分布密度曲线
(黑色代表总体年龄的密度曲线,蓝色代表男生年龄密度曲线,黄色代表女生年龄密度曲线,红色代表总体的正态分布的概念密度曲线)
由图可知,年龄阶段在11-12之间的人最多,在15—16之间的最少;年龄的密度估计曲线在11—12之间上升,在12—15之间平稳,在15—16之间下降;但是密度估计曲线和正态分布的概率密度曲线还是有一定的差别.不同之处就是在13-14之间,总体的和男生的密度曲线都是呈下凹状态,女生的确有一点凸起。
2..体重直方图、密度估计曲线和正态分布密度曲线
(黑色代表总体体重的密度曲线,蓝色代表男生体重密度曲线,黄色代表女生体重密度曲线,红色代表总体的正态分布的概念密度曲线)
体重在80—100之间的人数最多,在40-60,60-80,140—160的人数差不多,都最少;总体、男生的密度曲线和正态分布的相似,但是女生的呈现出不平衡,落差很大
3.身高直方图、密度估计曲线和正态分布密度曲线
(黑色代表总体身高的密度曲线,蓝色代表男生身高密度曲线,黄色代表女生身高密度曲线,红色代表总体的正态分布的概念密度曲线)
总体、男生、女生和正态分布的密度曲线非常相似,都呈抛物线形状。
三.散点图
1.年龄一定时,身高和体重的散点图如下:
由图可知,在11—12。
5岁之间,身高集中在60—65之间,体重集中在80—90之间;在12。
5-14。
5岁之间,身高集中在55—65之间,体重集中在80—100之间;在14.5—16之间,身高和体重都比较分散;
2.身高一定时,年龄和体重的散点图如下:
在各个身高阶段,体重和年龄的分布都比较分散
3.体重一定时,年龄和身高的散点图如下:
在各个体重阶段,体重和年龄的分布都比较分散
四.身高和体重的相关性
1.用cor.test(Weight,Height)求它的相关系数:
运行结果如下:
cor.test(Weight,Height)
Pearson'sproduct—momentcorrelation
data:
WeightandHeight
t=7。
5549,df=17,p-value=7.887e—07
alternativehypothesis:
truecorrelationisnotequalto0
95percentconfidenceinterval:
0.70443140.9523101
sampleestimates:
cor
0。
8777852
P=7。
887e—07<0.05,拒绝原假设,认为Weight和Height是相关的
cor=0。
8777852是相关系数
2.用相关系数可以得到它的置信区间,编写ruben.test.R程序执行,得到结果如下:
nrconfLU
190.87778250。
950。
68884930。
9501328
置信区间是(0.69,0.95),总体基本上是相关的
实验结果与讨论:
1.学会数据分布形状的度量,怎么求偏度系数和峰度系数以及其他的度量系数
2.学会画直方图和密度曲线,还有正态分布概率密度曲线,并把他们画在同一张图纸上
3.学会在给定一个向量,画出其他两个向量的散点图
4.学会二元数据的相关性检验
指导教师意见:
签名:
年月日