统计建模与R软件实验报告.docx
《统计建模与R软件实验报告.docx》由会员分享,可在线阅读,更多相关《统计建模与R软件实验报告.docx(44页珍藏版)》请在冰点文库上搜索。
统计建模与R软件实验报告
开课学院、实验室:
数学和统计学院
实验时间
:
2013
年3月
日
实验项目
多维数组和矩阵
实验项目类型
名
称
验证
演示
综合
设计
其他
指导
张应应
成
绩
教师
一、实验目的
1.了解R软件的基本功能以及基本操作2.掌握R软件的基本操作
二、实验内容
生成一个5阶的Hilbert矩阵
H(h)hijnn,ij
1ij1
i,j1,2,...n.
(1)计算Hilbert矩阵H的行列式
(2)求H的逆矩阵
(3)求H的特征值和特征向量。
三、实验原理、方法(算法)、步骤
1.函数det(A)是求矩阵A的行列式的值
2.求矩阵A的逆,其命令形式为slove(A)
3.函数eigen(Sm)是求对称矩阵Sm的特征值和特征向量n<-5;x<-array(0,dim=c(n,n))
for(iin1:
n){for(jin1:
n){x[i,j]<-1/(i+j-1)}};xdet(x)
solve(x)
eigen(x)
4、实验环境(所用软件、硬件等)及实验数据文件软件:
R2.15.3
5、实验结果及实例分析
>n<-5;x<-array(0,dim=c(n,n))
>for(iin1:
n){
+for(jin1:
n){
+x[i,j]<-1/(i+j-1)
+}
+};x
[,1][,2][,3][,4][,5]
[1,]1.00000000.50000000.33333330.25000000.2000000
[2,]0.50000000.33333330.25000000.20000000.1666667
[3,]0.33333330.25000000.20000000.16666670.1428571
[4,]0.25000000.20000000.16666670.14285710.1250000
[5,]0.20000000.16666670.14285710.12500000.1111111
>det(x)
[1]3.749295e-12
>solve(x)
[,1][,2][,3][,4][,5]
[1,]25-3001050-1400630
[2,]-3004800-1890026880-12600
[3,]1050-1890079380-11760056700
[4,]-140026880-117600179200-88200
[5,]630-1260056700-8820044100
>eigen(x)
$values
[1]1.567051e+002.085342e-011.140749e-023.058980e-043.287929e-06$vectors
[,1][,2][,3][,4][,5]
[1,]0.76785470.6018715-0.21421360.047161810.006173863
[2,]0.4457911-0.27591340.7241021-0.43266733-0.116692747
[3,]0.3215783-0.42487660.12045330.667350440.506163658
[4,]0.2534389-0.4439030-0.30957400.23302452-0.767191193
[5,]0.2098226-0.4290134-0.5651934-0.557599950.376245545
分析:
从实验结果来看。
R软件在处理数据上相当准确,方便。
教师签名
年
月
日
开课学院、实验室:
数学和统计学院
实验时间
:
2013
年
3月
日
实验项目
描述统计量
实验项目类型
名
称
验证
演示
综合
设计
其他
指导
张应应
成
绩
教师
2
一、实验目的
1.掌握利用R软件描述统计量的方法
2.学会利用R软件绘制数据的分布图
3.掌握多元数据的数据特征和相关分析在R软件中的操作
二、实验内容
用Pearson相关检验法检验习题3.7中的身高和体重是否相关
三、实验原理、方法(算法)、步骤
Pearson相关性检验:
利用统计量t服从自由度为n-2的t分布的性质,对数据X和Y的相关性进行检验。
t
r
xy
n2
1r
xy
其中。
四、实验环境(所用软件、硬件等)及实验数据文件R2.15.3数据文件3.7数据.txt,其内容如下:
学号姓名性别年龄身高体重
1AliceF1356.584.0
2BeckaF1365.398.0
3GailF1464.390.0
4KarenF1256.377.0
5KathyF1259.884.5
6MaryF1566.5112.0
7SandyF1151.350.5
8SharonF1562.5112.5
9TammyF1462.8102.5
10AlfredM1469.0112.5
11DukeM1463.5102.5
12GuidoM1567.0133.0
13JamesM1257.383.0
14JeffreyM1362.584.0
15JohnM1259.099.5
16PhilipM1672.0150.0
17RobertM1264.8128.0
18ThomasM1157.585.0
19WilliamM1566.5112.0
五、实验结果及实例分析
student<-read.table("3.7数据.txt",header=T)
attach(student)
>cor.test(身高,体重)#Pearson相关性检验
Pearson'sproduct-momentcorrelation
data:
身高and体重
t=7.5549,df=17,p-value=7.887e-07
alternativehypothesis:
truecorrelationisnotequalto0
95percentconfidenceinterval:
0.70443140.9523101
sampleestimates:
cor
0.8777852
其p值7.887e-07<0.05,拒绝原假设,所以身高和体重相关
教师签名
年
月
日
开课学院、实验室:
数学和统计学院
实验时间
:
2013
年
月
日
实验项目
参数估计
实验项目类型
名
称
验证
演示
综合
设计
其他
指导
张应应
成
绩
教师
XX
n
置信度为1n
于
是得到的
的单侧置信区间分别为
,XZ
XZ,,
a
a
n
n
Pt(n1)1,
S
S
n
n
是得到1
于
的置信度为
的单侧置
信区间分别为
a
a
a
a
一、实验目的
1、学会利用R软件完成一个和两个正态总体的区间估计。
2、学会利用R软件完成非正态总体的区间估计。
3、学会利用R软件进行单侧置信区间估计
二、实验内容
正常人的脉搏平均每分钟72次,某一声测得10例四乙基铅中毒患者的脉搏数(次/min)如下:
54676878706667706569
已知人的脉搏次数服从正态分布,试计算这10名患者平均脉搏次数的点估计和95%的区间估
计,并做单侧区间估计,试分析这10名患者的平均脉搏次数是否低于正常人的平均脉搏次数。
三、实验原理、方法(算法)、步骤
假设正态总体X~N(
2),X,X,X为来自总体X的一个样本,1
12n
为置信度,X为
样本均值,S
2
为样本方差。
分别讨论总体方差2
已知和未知情况下,均值的单侧置信区间估计。
若2已知,得到
PZ1,P-Z1
aa
nn
因此,的置信度为1的单侧置信下限、上限分别为:
XZXZ
a,a
若2未知,得到
XX
Pt(n1)1
aa
SS
Xt(n1),,,Xt(n1)
nn
因此,的置信度为1的单侧置信下限、上限分别为SS
Xt(n1),Xt(n1)
nn
4、实验环境(所用软件、硬件等)及实验数据文件数据见实验内容,所用软件:
R2.15.1
5、实验结果及实例分析
在R软件中运行代码:
>x<-c(54,67,68,78,70,66,67,70,65,69)
>t.test(x)#做单样本正态分布区间估计
OneSamplet-test
data:
x
t=35.947,df=9,p-value=4.938e-11
alternativehypothesis:
truemeanisnotequalto0
95percentconfidenceinterval:
63.158571.6415
sampleestimates:
meanofx
67.4
####平均脉搏点估计为67.4,95%置信度的区间估计为[63.1585,71.6415]。
>t.test(x,alternative="less",mu=72)#做单样本正态分布单侧区间估计
OneSamplet-test
data:
x
t=-2.4534,df=9,p-value=0.01828
alternativehypothesis:
truemeanislessthan72
95percentconfidenceinterval:
-Inf70.83705
sampleestimates:
meanofx
67.4
p-value=0.01828<0.05,拒绝原假设,平均脉搏低于常人。
教师签名
年
月
日
开课学院、实验室:
实验时间
:
2013
年
月
日
实验项目
假设检验
实验项目类型
名
称
验证
演示
综合
设计
其他
指导
张应应
成
绩
教师
XY
12
11
S
nn
w
12
一、实验目的
1、了解假设检验的基本概念和步骤
2、掌握几种重要的参数检验
3、掌握若干重要的非参数检验
二、实验内容
为研究某中心要对抗凝血酶活力的影响,随机安排新药组病人12例,对照组病人10例,分别测定其抗凝血酶活力,其结果如下:
新药组:
126125136128123138142116110108115140
对照组:
162172177170175152157159160162
试分析新药组和对照粗病人的抗凝血酶活力有无差别(三、实验原理、方法(算法)、步骤
0.05)
1.基本原理:
解决一个具体的假设检验问题,一般要借助直观分析和理论分析思想。
其
基本原理是实际推断原理:
“小概率事件在一次实验中几乎不可能发生”,如果发生,就认为是不正常的,应该拒绝。
2.方法:
(1)提出原假设Ho
(2)确定假设检验统计量Z,并在Ho成立的条件下,导出Z的分布
(3)确定拒绝域:
由直观分析先确定拒绝的形式,然后由显著水平α及Z的分布P确定拒绝域的临界值,进而确定拒绝域C
(4)根据具体的一次样本值做出推断
3.具体算法:
假设X,X,X12
n1
是来自总体X~N(
1
2
1
)的样本,Y,Y,Y
12n2
是来自总体
Y~N(
2
2
2
)的样本,且两样本独立,其检验问题有:
双边检验:
H:
0
,H:
121
12
单边检验
I
H:
,H:
012112
单边检验
II
H:
0
,H:
121
12
方差22未知,S2和S2分别是X和Y的样本方差。
由统计知识可知,当H为真时,12120
T~t(nn2)
(n1)S2(n1)S2
其中Sw1122
12nn2
因此,当T满足(成为拒绝域):
双边检验:
Tt(nn2)12
2
单边检验
单边检验
I
II
Tt(nn2)
12
Tt(nn2)12
则认为H不成立,此方法也称为t检验法。
0
四、实验环境(所用软件、硬件等)及实验数据文件见实验内容软件:
R2.15.3
R软件。
五、实验结果及实例分析
>a<-c(126,125,136,128,123,138,142,116,110,108,115,140)
>b<-c(162,172,177,170,175,152,157,159,160,162)
###正态性检验:
>ks.test(a,"pnorm",mean(a),sd(a))
One-sampleKolmogorov-Smirnovtest
data:
a
D=0.1464,p-value=0.9266
alternativehypothesis:
two-sided
>ks.test(b,"pnorm",mean(b),sd(b))
One-sampleKolmogorov-Smirnovtest
data:
b
D=0.2222,p-value=0.707
alternativehypothesis:
two-sided
####方差齐性检验:
>var.test(a,b)
Ftesttocomparetwovariances
data:
aandb
F=1.9646,numdf=11,denomdf=9,p-value=0.32
alternativehypothesis:
trueratioofvariancesisnotequalto195percentconfidenceinterval:
0.50219437.0488630
sampleestimates:
ratioofvariances
1.964622
####可认为a和b的方差相同。
####选用方差相同模型t检验:
>t.test(a,b,var.equal=TRUE)
TwoSamplet-test
data:
aandb
t=-8.8148,df=20,p-value=2.524e-08
alternativehypothesis:
truedifferenceinmeansisnotequalto095percentconfidenceinterval:
-48.24975-29.78358
sampleestimates:
meanofxmeanofy
125.5833164.6000
p-value=2.524e-08<0.05,因而认为两者有显著差别。
教师签名
年
月
日
开课学院、实验室:
数学和统计学院
实验时间
:
2013
年月
日
实验项目
回归分析
实验项目类型
名
称
验证
演示
综合
设计
其他
指导
张应应
成
绩
教师
一、实验目的
1.掌握回归分析的原理以及在R软件上的使用
2.掌握回归诊断在R软件上的使用
3.掌握回归诊断的原理
二、实验内容
为了估计山上积雪融化后对下游灌溉的影响,在山上建立一个观测站,测量最大面积积雪深度X和当年灌溉面积Y,测得连续10年的数据
10年中最大积雪深度和当年灌溉面积的数据
年序
1
2
3
4
5
X/m
5.1
3.5
7.1
6.2
8.8
Y/hm^2
1907
1287
2700
2373
3260
序号
6
7
8
9
10
X/m
7.8
4.5
5.6
8.0
6.4
Y/hm^2
3000
1947
2273
3113
2493
1.试画相应的散点图,判断Y和X是否有线性关系
2.求出Y关于X的一元线性回归方程;
3.对方程做显著性分析;
4.先测得今年的数据是X=7m,给出今年灌溉面积的预测值和相应的区间估计(α=0.05)三、实验原理、方法(算法)、步骤
回归分析研究的主要问题是:
1.确定Y和X1,X2....Xp间的定量关系表达式,即回归方程
2.对求得的回归方程的可信度进行检验
3.判断自变量Xj(j=1,2,...p)对Y有无影响
4.利用所求的的回归方程进行预测和控制,在比较严密的分析中,一般不轻易剔除变量,而是对显著差异变量进行分析。
四、实验环境(所用软件、硬件等)及实验数据文件
软件:
R2.15.3
数据见实验内容
五、实验结果及实例分析
####输入数据并运行得:
x<-c(5.1,3.5,7.1,6.2,8.8,7.8,4.5,5.6,8.0,6.4)
y<-c(1907,1287,2700,2373,3260,3000,1947,2273,3113,2493)
plot(x,y)
分析结果:
由散点图可得x,y线性相关
lm.sol<-lm(y~1+x)
summary(lm.sol)
Call:
lm(formula=y~1+x)
Residuals:
Min1QMedian3QMax
-128.591-70.978-3.72749.263167.228
Coefficients:
EstimateStd.ErrortvaluePr(>|t|)
(Intercept)140.95125.111.1270.293
x364.1819.2618.9086.33e-08***
---
Signif.codes:
0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
Residualstandarderror:
96.42on8degreesoffreedom
MultipleR-squared:
0.9781,AdjustedR-squared:
0.9754
F-statistic:
357.5on1and8DF,p-value:
6.33e-08
分析结果:
由上述结果可得y关于x的一元线性回归方程为y=140.95+364.18x;并由F检验和t检验,可得回归方程通过了回归方程的显著性检验
####对数据进行预测,并且给相应的区间估计
new<-data.frame(x=7)
lm.pred<-predict(lm.sol,new,interval="prediction",level=0.95)
lm.pred
fitlwrupr
12690.2272454.9712925.484
分析结果:
预测值为2690.227,估计区间为[2454.971,2925.484]
教师签名
年
月
日
开课学院、实验室:
数学和统计实验项目
判别分析
实验时间
:
2013
年
04月20日
实验项目类型
名
称
验证
演示
综合
设计
其他
指导
张应应
成
绩
教师
一、实验目的
1.在已知样本有多少类的情况下对样本进行分类;
2.熟悉R软件的各种操作;
3.利用R软件进行各种方式的判别分析。
二、实验内容
根据经验今天和昨天的温度差X1及今天的压温差(气压和温度之差)X2是预报明天下雨或不下雨的两个重要因素。
现有一批已收集的数据资料,如表所示,金测得x1=8.1,x2=2.0试问预报明天下雨还是预报明天不下雨?
分别用距离判别、Bayes判别、(考虑方差相同和方差不同两种情况)和Fisher判别来得到你所需要的结论。
具体数据见统计建模和R软件P420表8.7.
三、实验原理、方法(算法)、步骤W(x)(xx
(2))T1(xx
距离判别法:
2
(2)
)(xx
(1)
)
T
1
2
(xx
(1)
)
,判断其值是否大于0.
Bayes判别法:
W(x)
1
2
(x
2
)
T
1
2
(x
2
)(x
1
)
T
1
1
(x
1
)
,判断值和的关系;
Fisher判别法:
W(x)dTS1(xx)
4、实验环境(所用软件、硬件等)及实验数据文件实验数据见实验内容软件:
R2.15.1
5、实验结果及实例分析:
##距离判别
classX1=data.frame(
x1=c(-1.9,-6.9,5.2,5.0,7.3,6.8,0.9,-12.5,1.5,3.8),
x2=c(3.2,10.4,2.0,2.5,0.0,12.7,-15.4,-2.5,1.3,6.8)
)
classX2=data.frame(
x1=c(0.2,-0.1,0.4,2.7,2.1,-4.6,-1.7,-2.6,2.6,-2.8),
x2=c(0.2,7.5,14.6,8.3,0.8,4.