R统计建模期末考试.docx

上传人:b****2 文档编号:17779767 上传时间:2023-08-03 格式:DOCX 页数:10 大小:112.45KB
下载 相关 举报
R统计建模期末考试.docx_第1页
第1页 / 共10页
R统计建模期末考试.docx_第2页
第2页 / 共10页
R统计建模期末考试.docx_第3页
第3页 / 共10页
R统计建模期末考试.docx_第4页
第4页 / 共10页
R统计建模期末考试.docx_第5页
第5页 / 共10页
R统计建模期末考试.docx_第6页
第6页 / 共10页
R统计建模期末考试.docx_第7页
第7页 / 共10页
R统计建模期末考试.docx_第8页
第8页 / 共10页
R统计建模期末考试.docx_第9页
第9页 / 共10页
R统计建模期末考试.docx_第10页
第10页 / 共10页
亲,该文档总共10页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

R统计建模期末考试.docx

《R统计建模期末考试.docx》由会员分享,可在线阅读,更多相关《R统计建模期末考试.docx(10页珍藏版)》请在冰点文库上搜索。

R统计建模期末考试.docx

R统计建模期末考试

实验报告

实验课程名称统计建模与R软件

实验项目名称统计描述性分析

年级2010级

专业信计

学生姓名陈秀美

学号1007010238

理学院

实验时间:

2013年06月11日

 

学生实验室守则

一、按教学安排准时到实验室上实验课,不得迟到、早退和旷课。

二、进入实验室必须遵守实验室的各项规章制度,保持室内安静、整洁,不准在室内打闹、喧哗、吸烟、吃食物、随地吐痰、乱扔杂物,不准做与实验内容无关的事,非实验用品一律不准带进实验室。

三、实验前必须做好预习(或按要求写好预习报告),未做预习者不准参加实验。

四、实验必须服从教师的安排和指导,认真按规程操作,未经教师允许不得擅自动用仪器设备,特别是与本实验无关的仪器设备和设施,如擅自动用或违反操作规程造成损坏,应按规定赔偿,严重者给予纪律处分。

五、实验中要节约水、电、气及其它消耗材料.

六、细心观察、如实记录实验现象和结果,不得抄袭或随意更改原始记录和数据,不得擅离操作岗位和干扰他人实验。

七、使用易燃、易爆、腐蚀性、有毒有害物品或接触带电设备进行实验,应特别注意规范操作,注意防护;若发生意外,要保持冷静,并及时向指导教师和管理人员报告,不得自行处理。

仪器设备发生故障和损坏,应立即停止实验,并主动向指导教师报告,不得自行拆卸查看和拼装。

八、实验完毕,应清理好实验仪器设备并放回原位,清扫好实验现场,经指导教师检查认可并将实验记录交指导教师检查签字后方可离去。

九、无故不参加实验者,应写出检查,提出申请并缴纳相应的实验费及材料消耗费,经批准后,方可补做。

十、自选实验,应事先预约,拟订出实验方案,经实验室主任同意后,在指导教师或实验技术人员的指导下进行。

十一、实验室内一切物品未经允许严禁带出室外,确需带出,必须经过批准并办理手续.

学生所在学院:

理学院专业:

信计班级:

101

姓名

陈秀美

学号

1007010238

实验组

实验时间

2013/06/11

指导教师

杨剑峰

成绩

实验项目名称

统计描述性分析

实验目的及要求:

1、学习掌握课本第三章的内容

2、选择一些统计方法对课本第161页的数据统计进行描述性分析

 

实验(或算法)原理:

1.偏度系数是刻画数据的对称性的指标,关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。

当数据的总体分布为正态分布时,峰度系数近似为0,当分布较正态分布的尾部更分散时,峰度系数为正,否则为负。

当峰度系数为正时,两侧极端数据较多,当峰度系数为负时,两侧极端数据较少.

2.可以使用函数hist(x)画出样本的直方图,使用density(x)(核密度估计函数)可以对已知的样本估计其密度。

3.显示多变量数据,用函数coplot(x~y|z)实现,表示在给定z值下,x关于y的散点图

4.二元函数相关性检验,使用函数cor。

test(x,y),返回值为x和y的相关系数,Ruben给出了总体相关系数的区间估计的近似逼近公式,可以得出置信区间和相关性。

实验硬件及软件平台:

pc机,R软件

实验步骤:

1.对课本上的方法进行了解和学习,选择数据统计性描述需要使用的方法

2.输入数据,编写程序,得到实验结果

3.对实验的结果进行分析

实验内容(包括实验具体内容、算法分析、源代码等等):

一.分布形状的度量:

1。

关于年龄的度量

(1)执行data_outline(Age)后得到的结果如下:

NMeanVarstd_devMedianstd_meanCVCSSUSSRR1

1913.315792.228071.492672130.342442511。

2097940.10526340952。

5

SkewnessKurtosis

0。

06361167—1.110926

其中,样本个数=19,样本均值=13.31579,样本方差=2.22807,样本标准差=1。

492672,样本中位数=13,样本标准误=0.3424425,样本变异系数=11.20979,样本矫正平方和=40.10526,样本未矫正平方和=3409,样本极差=5,样本半极差=2.5,偏度系数=0.06361167,峰度系数=-1.110926.

(2)执行data_outline(AgeF)的结果为:

NMeanVarstd_devMedianstd_meanCVCSSUSSRR1

913。

222221.9444441.394433130.464811110.5461315.55556158942

SkewnessKurtosis

-0。

1463545-1。

060058

(3)执行data_outline(AgeM)的结果为:

NMeanVarstd_devMedianstd_meanCVCSSUSSRR1

1013.42。

7111111.64654513.50。

520683312.2876524.4182052.75

SkewnessKurtosis

0。

1269424-1。

257295

(2)和(3)比较,女生年龄的右侧数据比左侧分散,男生年龄的右侧数据比左侧集中。

男生和女生年龄的数据两端比正态分布的更集中,两侧极端数据较少.

2.关于身高的度量

(1)执行data_outline(Height)的结果:

NMeanVarstd_devMedianstd_meanCVCSSUSSR

1962.3368426。

28695.12707562.81.1762328。

224791473。

164274304。

9220.7

R1SkewnessKurtosis

7。

65-0。

2596696-0.1389692

其中,样本个数=19,样本均值=62.33684,样本方差=26。

2869,样本标准差=5.127075,样本中位数=62.8,样本标准误=1.176232,样本变异系数=8.224791,样本矫正平方和=473.1642,样本未矫正平方和=74304。

92,样本极差=20。

7,样本半极差=7。

65,偏度系数=—0。

2596696,峰度系数=8.224791。

(2)data_outline(Height。

F)的执行结果:

NMeanVarstd_devMedianstd_meanCVCSSUSSR

960。

5888925。

183615.01832862.51.6727768。

282587201.468933240。

5915.2

R1SkewnessKurtosis

7。

8—0。

7238643—0。

3464949

(3)data_outline(Height.M)的执行结果:

NMeanVarstd_devMedianstd_meanCVCSSUSSRR1

1063.9124.383224.93793764.151。

5615137.726392219.44941064.3314。

77

SkewnessKurtosis

0。

04095917—0。

934876

(2)和(3)比较,女生身高的左侧数据比右侧分散,男生年龄的右侧数据比左侧分散.男生和女生年龄的数据两端比正态分布的更集中,两侧极端数据较少.

3.关于体重的度量在此就不作分析了

 

二.作出学生的年龄,身高,体重的直方图、密度估计曲线和正态分布密度曲线,分析数据

1.年龄直方图、密度估计曲线和正态分布密度曲线

(黑色代表总体年龄的密度曲线,蓝色代表男生年龄密度曲线,黄色代表女生年龄密度曲线,红色代表总体的正态分布的概念密度曲线)

由图可知,年龄阶段在11-12之间的人最多,在15—16之间的最少;年龄的密度估计曲线在11—12之间上升,在12—15之间平稳,在15—16之间下降;但是密度估计曲线和正态分布的概率密度曲线还是有一定的差别.不同之处就是在13-14之间,总体的和男生的密度曲线都是呈下凹状态,女生的确有一点凸起。

 

2..体重直方图、密度估计曲线和正态分布密度曲线

(黑色代表总体体重的密度曲线,蓝色代表男生体重密度曲线,黄色代表女生体重密度曲线,红色代表总体的正态分布的概念密度曲线)

体重在80—100之间的人数最多,在40-60,60-80,140—160的人数差不多,都最少;总体、男生的密度曲线和正态分布的相似,但是女生的呈现出不平衡,落差很大

 

3.身高直方图、密度估计曲线和正态分布密度曲线

(黑色代表总体身高的密度曲线,蓝色代表男生身高密度曲线,黄色代表女生身高密度曲线,红色代表总体的正态分布的概念密度曲线)

总体、男生、女生和正态分布的密度曲线非常相似,都呈抛物线形状。

 

三.散点图

1.年龄一定时,身高和体重的散点图如下:

由图可知,在11—12。

5岁之间,身高集中在60—65之间,体重集中在80—90之间;在12。

5-14。

5岁之间,身高集中在55—65之间,体重集中在80—100之间;在14.5—16之间,身高和体重都比较分散;

 

 

2.身高一定时,年龄和体重的散点图如下:

在各个身高阶段,体重和年龄的分布都比较分散

 

3.体重一定时,年龄和身高的散点图如下:

在各个体重阶段,体重和年龄的分布都比较分散

 

四.身高和体重的相关性

1.用cor.test(Weight,Height)求它的相关系数:

运行结果如下:

cor.test(Weight,Height)

Pearson'sproduct—momentcorrelation

data:

WeightandHeight

t=7。

5549,df=17,p-value=7.887e—07

alternativehypothesis:

truecorrelationisnotequalto0

95percentconfidenceinterval:

0.70443140.9523101

sampleestimates:

cor

0。

8777852

P=7。

887e—07<0.05,拒绝原假设,认为Weight和Height是相关的

cor=0。

8777852是相关系数

2.用相关系数可以得到它的置信区间,编写ruben.test.R程序执行,得到结果如下:

nrconfLU

190.87778250。

950。

68884930。

9501328

置信区间是(0.69,0.95),总体基本上是相关的

 

实验结果与讨论:

1.学会数据分布形状的度量,怎么求偏度系数和峰度系数以及其他的度量系数

2.学会画直方图和密度曲线,还有正态分布概率密度曲线,并把他们画在同一张图纸上

3.学会在给定一个向量,画出其他两个向量的散点图

4.学会二元数据的相关性检验

 

指导教师意见:

 

签名:

年月日

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 自然科学 > 物理

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2