例题选讲58.docx - 冰点文库

资源描述

例题选讲58.docx

《例题选讲58.docx》由会员分享，可在线阅读，更多相关《例题选讲58.docx（10页珍藏版）》请在冰点文库上搜索。

例题选讲58.docx

例题选讲58

例题选讲：

［注：

蓝色字体为填空、R软件中输入及显示的内容；绿色字体为解释和说明的内容。

］

一、填空题

若要将d:

\work设为当前工作目录，可以在R命令窗口中通过“文件”菜单中的“改变工作目录”选择该工作目录来完成。

二、填空题

在统计软件R中已经预先储存了不少有名的数据。

读取其中名为“Orange”的数据的命令为data（Orange）或者直接键入命令Orange即可；再将此数据“Orange”保存为Excel的逗号分割格式的数据的命令为：

write.csv（Orange,file="d:

/work/Orange.csv",row.names=F,quote=F）

类似地,将此数据“Orange”保存为简单的文本文件的命令为：

write.table（Orange,file="d:

/work/Orange.txt",row.names=F,quote=F）

反之,将刚才保存在d:

\work工作目录下的逗号分割文件"Orange.csv"和文本文件"Orange.txt"再读入R中的命令分别为:

read.csv（file="Orange.csv",header=TRUE）

和

read.table（file="Orange.txt",header=TRUE）

三、计算及作图题

读入R中自带数据“Nile”（尼罗河从1871年至1970年的流量数据），计算下表中的各数值并将它们填入表中相应位置：

最大值

最小值

均值

方差

标准差

中位数

1/4分位数

3/4分位数

命令

max（Nile）

min（Nile）

mean（Nile）

var（Nile）

sd（Nile）

median（Nile）

quantile（Nile）

数值

1370

456

919.35

28637.95

169.2275

893.5

798.5

1032.5

并给出画散点图、直方图、茎叶图和箱线图的命令。

散点图:

plot（Nile,main="Nile散点图"）

直方图:

hist（Nile,main="数据Nile直方图"）

茎叶图:

stem（Nile）

箱线图:

boxplot（Nile,main="数据Nile箱线图"）

Thedecimalpointis2digit（s）totherightofthe|

4|6

6|5899

7|000123444455667778

8|000011222233344555556667779―――――茎叶图

9|0011222244466678899

10|0122234455

11|00012244566678

12|112356

13|7

四、计算及作图题

求服从二项分布B（30,0.1）的随机变量X在k=0，1，...，10处的概率值，保留三位小数，填写下表，并给出画线柱图的R程序命令。

P（X=k）

0.042

0.141

0.228

0.236

0.177

0.102

0.047

0.018

0.006

0.002

0.000

>k=0:

10;n<-30;p<-0.1;

>c=dbinom（k,n,p）;c=round（c,2）

[1]0.0420.1410.2280.2360.1770.1020.0470.0180.0060.0020.000

>plot（k,c,type='h',col='blue',lwd=12,main='二项分布B（30,0.1）'）

五、（假设检验题）已知A、B两班各50名学生身高数据集“HAB”，其中包含有两列数据，分别为A班50名学生的身高"heightA"和B班50名学生的身高"heightB"。

画出身高数据集“HAB”的箱线图，并进行比较说明；又假设这两列身高数据均来自正态总体且方差相同，试用命令t.test（）检验它们的均值是否相等？

>boxplot（read.table（file="HAB.txt",header=TRUE）,col=c（'lightgreen','lightblue'）,main="A、B班学生身高"）

HAB=read.table（file="HAB.txt",header=TRUE）

由箱线图看出，A班学生平均身高（约174cm）明显大于B班（约165cm）,而且1/4和3/4分位数A班也大于B班的;但A班数据分布范围比B班的要小

>t.test（HAB[,1],HAB[,2]）――――――――――　双样本检验

WelchTwoSamplet-test

data:

ht[,1]andht[,2]

t=3.4097,df=97.386,p-value=0.0009476

alternativehypothesis:

truedifferenceinmeansisnotequalto0

95percentconfidenceinterval:

2.0730387.846962

sampleestimates:

meanofxmeanofy

170.56165.60―――　它们的均值不相等

六、（计算题）设银行年利率为9.25%。

将10000元钱存入银行，问至少多长时间会连本带利翻一番？

>money=10000;years=0

>while（money<20000）

+{years=years+1;money=money*（1+9.25/100）}

>years

[1]8――――――至少8年时间　

>money

[1]20294.18―――――――检验余额　

七、（计算题）

产生42个正态分布N（3，2）随机数，由它们生成一个7×6矩阵，并计算矩阵的第3行和第5行构成的两个向量的相关系数。

>c=rnorm（42,3,sqrt

（2））

>B=matrix（c,nrow=7,ncol=6）

>B――――――　输出B

[,1][,2][,3][,4][,5][,6]

[1,]4.6902821.2060174.74614462.3199932.6165724.8192753

[2,]1.3922732.0824400.73246241.3781213.3844893.6875426

[3,]1.5551893.4345113.78148382.0015591.4689513.6406123

[4,]1.7500772.0915040.59021852.7989203.5826124.8157370

[5,]3.8495752.6436382.51826322.6575182.4417952.1490091

[6,]4.8571211.9237582.44627851.6465665.771279-0.4936599

[7,]1.4130941.2740342.56711972.2641201.7701943.2891725

>cor（B[3,],B[5,]）――――――――――计算相关系数　

[1]-0.5393955

八、在R的内置数据集“stackloss”中，记录了又氧化氨气来制造硝酸的数据。

数据集有21行和4列：

Air.Flow（空气流量）、Water.Temp（水温）、Acid.Conc（硝酸浓度）及stack.loss（氨气损失百分比）。

试建立因变量stack.loss关于另外三个自变量的多元线性回归模型，并对所建立的模型进行讨论和改进。

>stackloss

Air.FlowWater.TempAcid.Conc.stack.loss

180278942

（省略此部分数据）

2170209115

>X1=stackloss[,1]

>X2=stackloss[,2]

>X3=stackloss[,3]

>Y1=stackloss[,4]

>lm.sol<-lm（Y1~X1+X2+X3）

>summary（lm.sol）

Call:

lm（formula=Y1~X1+X2+X3）

Residuals:

Min1QMedian3QMax

-7.2377-1.7117-0.45512.36145.6978

Coefficients:

EstimateStd.ErrortvaluePr（>|t|）

（Intercept）-39.919711.8960-3.3560.00375**　

X10.71560.13495.3075.8e-05***　

X21.29530.36803.5200.00263**　

X3-0.15210.1563-0.9730.34405―“不显著”

---

Signif.codes:

0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:

3.243on17degreesoffreedom

MultipleR-squared:

0.9136,AdjustedR-squared:

0.8983　

F-statistic:

59.9on3and17DF,p-value:

3.016e-09―――P值很小

由以上结果，虽然可觉系数、P值等较合理，但自变量X3不适合于该线性规划模型，

它与因变量Y有其它关系，要另建一模型。

改进：

只建立自变量X1、X2与因变量Y间的线性回归模型：

>X1=stackloss[,1]

>X2=stackloss[,2]

>Y1=stackloss[,4]

>lm.sol<-lm（Y1~X1+X2）

>summary（lm.sol）

Call:

lm（formula=Y1~X1+X2）

Residuals:

Min1QMedian3QMax

-7.5290-1.75050.18942.11565.6588

Coefficients:

EstimateStd.ErrortvaluePr（>|t|）

（Intercept）-50.35885.1383-9.8011.22e-08***

―――――“极为显著”

X10.67120.12675.2984.90e-05***

―――――“极为显著”　

X21.29540.36753.5250.00242**

―――――“高度显著”　

---

Signif.codes:

0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:

3.239on18degreesoffreedom

MultipleR-squared:

0.9088,AdjustedR-squared:

0.8986

――――可决系数较接近1　

F-statistic:

89.64on2and18DF,p-value:

4.382e-10

――――――P值很小

相关系数（MultipleR-squared）为0.9088，说明线性回归方程拟合度较高，

而且由可决系数、P值等来看，改进是合理的。

回归方程为：

Y=-50.3588+0.6712X1+1.2954X2

展开阅读全文