例题选讲58.docx
《例题选讲58.docx》由会员分享,可在线阅读,更多相关《例题选讲58.docx(10页珍藏版)》请在冰点文库上搜索。
例题选讲58
例题选讲:
[注:
蓝色字体为填空、R软件中输入及显示的内容;绿色字体为解释和说明的内容。
]
一、填空题
若要将d:
\work设为当前工作目录,可以在R命令窗口中通过“文件”菜单中的“改变工作目录”选择该工作目录来完成。
二、填空题
在统计软件R中已经预先储存了不少有名的数据。
读取其中名为“Orange”的数据的命令为data(Orange)或者直接键入命令Orange即可;再将此数据“Orange”保存为Excel的逗号分割格式的数据的命令为:
write.csv(Orange,file="d:
/work/Orange.csv",row.names=F,quote=F)
类似地,将此数据“Orange”保存为简单的文本文件的命令为:
write.table(Orange,file="d:
/work/Orange.txt",row.names=F,quote=F)
反之,将刚才保存在d:
\work工作目录下的逗号分割文件"Orange.csv"和文本文件"Orange.txt"再读入R中的命令分别为:
read.csv(file="Orange.csv",header=TRUE)
和
read.table(file="Orange.txt",header=TRUE)
三、计算及作图题
读入R中自带数据“Nile”(尼罗河从1871年至1970年的流量数据),计算下表中的各数值并将它们填入表中相应位置:
最大值
最小值
均值
方差
标准差
中位数
1/4分位数
3/4分位数
命令
max(Nile)
min(Nile)
mean(Nile)
var(Nile)
sd(Nile)
median(Nile)
quantile(Nile)
quantile(Nile)
数值
1370
456
919.35
28637.95
169.2275
893.5
798.5
1032.5
并给出画散点图、直方图、茎叶图和箱线图的命令。
散点图:
plot(Nile,main="Nile散点图")
直方图:
hist(Nile,main="数据Nile直方图")
茎叶图:
stem(Nile)
箱线图:
boxplot(Nile,main="数据Nile箱线图")
Thedecimalpointis2digit(s)totherightofthe|
4|6
5|
6|5899
7|000123444455667778
8|000011222233344555556667779―――――茎叶图
9|0011222244466678899
10|0122234455
11|00012244566678
12|112356
13|7
四、计算及作图题
求服从二项分布B(30,0.1)的随机变量X在k=0,1,...,10处的概率值,保留三位小数,填写下表,并给出画线柱图的R程序命令。
k
0
1
2
3
4
5
6
7
8
9
10
P(X=k)
0.042
0.141
0.228
0.236
0.177
0.102
0.047
0.018
0.006
0.002
0.000
>k=0:
10;n<-30;p<-0.1;
>c=dbinom(k,n,p);c=round(c,2)
>c
[1]0.0420.1410.2280.2360.1770.1020.0470.0180.0060.0020.000
>plot(k,c,type='h',col='blue',lwd=12,main='二项分布B(30,0.1)')
五、(假设检验题)已知A、B两班各50名学生身高数据集“HAB”,其中包含有两列数据,分别为A班50名学生的身高"heightA"和B班50名学生的身高"heightB"。
画出身高数据集“HAB”的箱线图,并进行比较说明;又假设这两列身高数据均来自正态总体且方差相同,试用命令t.test()检验它们的均值是否相等?
>boxplot(read.table(file="HAB.txt",header=TRUE),col=c('lightgreen','lightblue'),main="A、B班学生身高")
HAB=read.table(file="HAB.txt",header=TRUE)
由箱线图看出,A班学生平均身高(约174cm)明显大于B班(约165cm),而且1/4和3/4分位数A班也大于B班的;但A班数据分布范围比B班的要小
>t.test(HAB[,1],HAB[,2])―――――――――― 双样本检验
WelchTwoSamplet-test
data:
ht[,1]andht[,2]
t=3.4097,df=97.386,p-value=0.0009476
alternativehypothesis:
truedifferenceinmeansisnotequalto0
95percentconfidenceinterval:
2.0730387.846962
sampleestimates:
meanofxmeanofy
170.56165.60――― 它们的均值不相等
六、(计算题)设银行年利率为9.25%。
将10000元钱存入银行,问至少多长时间会连本带利翻一番?
>money=10000;years=0
>while(money<20000)
+{years=years+1;money=money*(1+9.25/100)}
>years
[1]8――――――至少8年时间
>money
[1]20294.18―――――――检验余额
七、(计算题)
产生42个正态分布N(3,2)随机数,由它们生成一个7×6矩阵,并计算矩阵的第3行和第5行构成的两个向量的相关系数。
>c=rnorm(42,3,sqrt
(2))
>B=matrix(c,nrow=7,ncol=6)
>B―――――― 输出B
[,1][,2][,3][,4][,5][,6]
[1,]4.6902821.2060174.74614462.3199932.6165724.8192753
[2,]1.3922732.0824400.73246241.3781213.3844893.6875426
[3,]1.5551893.4345113.78148382.0015591.4689513.6406123
[4,]1.7500772.0915040.59021852.7989203.5826124.8157370
[5,]3.8495752.6436382.51826322.6575182.4417952.1490091
[6,]4.8571211.9237582.44627851.6465665.771279-0.4936599
[7,]1.4130941.2740342.56711972.2641201.7701943.2891725
>cor(B[3,],B[5,])――――――――――计算相关系数
[1]-0.5393955
八、在R的内置数据集“stackloss”中,记录了又氧化氨气来制造硝酸的数据。
数据集有21行和4列:
Air.Flow(空气流量)、Water.Temp(水温)、Acid.Conc(硝酸浓度)及stack.loss(氨气损失百分比)。
试建立因变量stack.loss关于另外三个自变量的多元线性回归模型,并对所建立的模型进行讨论和改进。
>stackloss
Air.FlowWater.TempAcid.Conc.stack.loss
180278942
:
:
(省略此部分数据)
:
2170209115
>
>X1=stackloss[,1]
>X2=stackloss[,2]
>X3=stackloss[,3]
>Y1=stackloss[,4]
>lm.sol<-lm(Y1~X1+X2+X3)
>summary(lm.sol)
Call:
lm(formula=Y1~X1+X2+X3)
Residuals:
Min1QMedian3QMax
-7.2377-1.7117-0.45512.36145.6978
Coefficients:
EstimateStd.ErrortvaluePr(>|t|)
(Intercept)-39.919711.8960-3.3560.00375**
X10.71560.13495.3075.8e-05***
X21.29530.36803.5200.00263**
X3-0.15210.1563-0.9730.34405―“不显著”
---
Signif.codes:
0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
Residualstandarderror:
3.243on17degreesoffreedom
MultipleR-squared:
0.9136,AdjustedR-squared:
0.8983
F-statistic:
59.9on3and17DF,p-value:
3.016e-09―――P值很小
由以上结果,虽然可觉系数、P值等较合理,但自变量X3不适合于该线性规划模型,
它与因变量Y有其它关系,要另建一模型。
改进:
只建立自变量X1、X2与因变量Y间的线性回归模型:
>X1=stackloss[,1]
>X2=stackloss[,2]
>Y1=stackloss[,4]
>lm.sol<-lm(Y1~X1+X2)
>summary(lm.sol)
Call:
lm(formula=Y1~X1+X2)
Residuals:
Min1QMedian3QMax
-7.5290-1.75050.18942.11565.6588
Coefficients:
EstimateStd.ErrortvaluePr(>|t|)
(Intercept)-50.35885.1383-9.8011.22e-08***
―――――“极为显著”
X10.67120.12675.2984.90e-05***
―――――“极为显著”
X21.29540.36753.5250.00242**
―――――“高度显著”
---
Signif.codes:
0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
Residualstandarderror:
3.239on18degreesoffreedom
MultipleR-squared:
0.9088,AdjustedR-squared:
0.8986
――――可决系数较接近1
F-statistic:
89.64on2and18DF,p-value:
4.382e-10
――――――P值很小
相关系数(MultipleR-squared)为0.9088,说明线性回归方程拟合度较高,
而且由可决系数、P值等来看,改进是合理的。
回归方程为:
Y=-50.3588+0.6712X1+1.2954X2