R语言论文于海龙.docx

上传人:b****1 文档编号:1164444 上传时间:2023-04-30 格式:DOCX 页数:11 大小:174.98KB
下载 相关 举报
R语言论文于海龙.docx_第1页
第1页 / 共11页
R语言论文于海龙.docx_第2页
第2页 / 共11页
R语言论文于海龙.docx_第3页
第3页 / 共11页
R语言论文于海龙.docx_第4页
第4页 / 共11页
R语言论文于海龙.docx_第5页
第5页 / 共11页
R语言论文于海龙.docx_第6页
第6页 / 共11页
R语言论文于海龙.docx_第7页
第7页 / 共11页
R语言论文于海龙.docx_第8页
第8页 / 共11页
R语言论文于海龙.docx_第9页
第9页 / 共11页
R语言论文于海龙.docx_第10页
第10页 / 共11页
R语言论文于海龙.docx_第11页
第11页 / 共11页
亲,该文档总共11页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

R语言论文于海龙.docx

《R语言论文于海龙.docx》由会员分享,可在线阅读,更多相关《R语言论文于海龙.docx(11页珍藏版)》请在冰点文库上搜索。

R语言论文于海龙.docx

R语言论文于海龙

 

基于R语言方法对大豆形状影响产量的研究

 

学院理学院

班级统计1001班

姓名于海龙

学号A********

基于R语言方法对大豆形状影响产量的研究

背景分析

大豆是是我国重要粮食作物之一,也是世界上最重要的豆类,已有五千年栽培历史,现知约有1000个栽培品种。

大豆是一年生草本植物,其种子也称为大豆。

也是世界上最重要的豆类。

 大豆起源于中国,中国学者大多认为原产地是云贵高原一带。

也有很多植物学家认为是由原产中国的乌苏里大豆衍生而来。

现种植的栽培大豆是从野生大豆通过长期定向选择、改良驯化而成的。

本文通过对我国吉林省部分不同大豆品种对于其产量的影响作出分析。

通过多元回归分析方法进行数学模拟,对影响大豆产量因素进行科学估计。

下图是吉林省历年大豆产量及播种面积统计表。

可以对吉林省的大豆产量状况做出直观估计。

那么影响大豆产量的最主要的因素包括哪些呢?

本文从吉林省大量大豆种子数据中抽样选取了部分样本做以分析说明。

引起数据类型较符合统计方法中的多元回归分析,采用R软件进行统计分析。

数据来源吉林省大豆品种及其产量情况

程序设计流程

 

多元回归分析

首先建立模型DZLZ=a1SYRS+a2ZG+a3ZC+a4DZLS+a5DZJS+a6YXFZS

其中SYRS为种子的生育日数,ZG为株高,ZC为株粗,DZLS为单株粒数,DZJS为单株夹数,YXFZS为有效分枝数,DZLZ为单株粒重。

程序如下

>x=read.table("D:

\\test.txt",header=TRUE)

>x

NUMNAMESYRSZGZCDZLSDZJSYXFZSDZLZ

1A001HF2410267.60.773.829.30.1313.8

2A002HF2510266.90.8123.149.30.6021.5

3A003HF25

(2)10562.20.8107.642.90.4018.6

4A004LQ(QH)10483.70.981.941.71.3314.0

5A005HHHD8970.10.673.736.91.5313.8

6A006SN19674.80.799.540.60.2017.1

7A007HH49555.70.781.236.90.7014.6

8A008HH178954.90.683.333.40.4012.9

9A009HH279460.90.764.529.60.0015.7

10A010SN1410277.90.782.737.10.0716.4

11A011LX111139.90.861.436.32.9221.4

12A012DN448951.90.676.432.30.3314.5

13A013SN1410380.60.8130.155.50.2723.9

14A014BF119760.00.677.333.90.1314.5

15A015HH199758.10.678.737.60.0715.9

16A016HF3910373.70.8100.742.20.0718.8

17A017SN1010479.50.777.928.60.2014.0

18A018HH1810479.70.788.338.70.5315.0

19A019BF99877.00.8104.240.30.0016.5

20A020BF149867.20.7104.544.10.0015.9

21A021HH139157.70.661.526.70.1312.2

22A022HF309874.20.8112.945.40.0718.7

23A023HH359053.20.561.624.30.0710.1

24A024HH299155.00.674.930.60.0012.0

25A025HH319357.50.568.533.90.1312.8

26A026HH258744.60.553.123.30.079.4

27A027JN2111295.50.8133.954.51.0023.4

28A028HH149447.30.667.728.10.3313.7

29A029HF379462.60.680.134.70.5312.4

30A030DD28139.40.562.226.70.009.3

>test<-read.table('D:

/test.txt',head=T)

>plot(x[3:

9])

>test.reg<-lm(DZLZ~SYRS+ZG+ZC+DZLS+DZJS+YXFZS,data=test)

>summary(test.reg)

散点图如下所示

Call:

lm(formula=DZLZ~SYRS+ZG+ZC+DZLS+DZJS+YXFZS,data=test)

Residuals:

Min1QMedian3QMax

-3.0772-0.71430.09830.87503.1914

Coefficients:

EstimateStd.ErrortvaluePr(>|t|)

(Intercept)-15.010344.72092-3.1800.00418**

SYRS0.226880.069473.2660.00340**

ZG-0.085490.03144-2.7190.01223*

ZC2.398894.893160.4900.62860

DZLS0.043860.048490.9040.37514

DZJS0.232790.125441.8560.07635.

YXFZS0.142350.706570.2010.84211

---

Signif.codes:

0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:

1.441on23degreesoffreedom

MultipleR-squared:

0.8828,AdjustedR-squared:

0.8522

F-statistic:

28.87on6and23DF,p-value:

1.318e-09

由获得的数据可以看出有些变量的回归系数并不显著,如ZC(株粗),YXFZS(有效分枝数)的回归系数对应的T统计量p值均大于0.5,这说明将所有变量纳入回归模型是不合适的,因此要对变量进行筛选。

程序如下

>test_step<-step(test.reg)

Start:

AIC=27.93

DZLZ~SYRS+ZG+ZC+DZLS+DZJS+YXFZS

DfSumofSqRSSAIC

-YXFZS10.084247.81925.987

-ZC10.498848.23426.246

-DZLS11.697749.43326.983

47.73527.934

-DZJS17.147654.88330.120

-ZG115.345463.08134.296

-SYRS122.135269.87037.363

Step:

AIC=25.99

DZLZ~SYRS+ZG+ZC+DZLS+DZJS

DfSumofSqRSSAIC

-ZC10.604448.42424.364

-DZLS12.141749.96125.301

47.81925.987

-DZJS112.979160.79931.191

-ZG117.579465.39933.379

-SYRS125.170772.99036.674

Step:

AIC=24.36

DZLZ~SYRS+ZG+DZLS+DZJS

DfSumofSqRSSAIC

-DZLS12.22350.64723.710

48.42424.364

-DZJS114.58763.01130.263

-ZG117.10965.53331.440

-SYRS148.09896.52243.057

Step:

AIC=23.71

DZLZ~SYRS+ZG+DZJS

DfSumofSqRSSAIC

50.64723.710

-ZG114.89165.53729.443

-SYRS145.89496.54141.063

-DZJS1108.182158.82955.999

>summary(test_step)

Call:

lm(formula=DZLZ~SYRS+ZG+DZJS,data=test)

Residuals:

Min1QMedian3QMax

-3.4228-0.70390.22030.71593.1551

Coefficients:

EstimateStd.ErrortvaluePr(>|t|)

(Intercept)-15.702853.82613-4.1040.000356***

SYRS0.240160.049484.8544.94e-05***

ZG-0.075120.02717-2.7650.010333*

DZJS0.346210.046467.4526.51e-08***

---

Signif.codes:

0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:

1.396on26degreesoffreedom

MultipleR-squared:

0.8756,AdjustedR-squared:

0.8613

F-statistic:

61.03on3and26DF,p-value:

6.692e-12

>

上表数据显示了每一步筛选的变量,筛选进行了四步,最终选入的模型变量为SYRS(生育日数),ZG(株高),DZJS(单株夹数)。

根据最后一步筛选,可以写出的多元回归方程为:

DZLZ=0.24061×SYRS—0.07512×ZG+0.34621×DZJS—15.70285

下面我们通过残差图对以上结果进行检验

程序如下

>Plot(test.reg)

运行结果

1图

2图

3图

4图

由以上四个图表中分析可知

第1个图是拟合值与残差的散点图,从图上可以发现,除去第9个离群点和第4个离群点外,所有点基本上是随机地分散在纵坐标值为-2和+2的两条平行线之间,这说明随机误差项具有同方差性,说明回归直线对原观测值的拟合情况良好。

2图表明随机误差项是服从正态分布的,其原因是正态Q-Q图近似地可以看成一条直线;

3图是拟合值与残差的标准差的散点图,其意义与1图类似;

4图的CooK距离图进一步证实第9个观测值和第4个观测值是两个离群点,它对回归方程的影响是比较大的,要根据具体问题,讨论出现这一观测值的实际背景。

从“残差图”可以直观地看出残差的绝对数值都比较小,所描绘的点都在以0为横轴的直线上下随机散布,回归直线对各个观测值的拟合情况是良好的。

说明变量自变量(种子性状)与因变量(单株产量)之间有显著的线性相关关系。

结论

从数据中分析得出结论,这说明种子的单株粒重受到生育日数,株高,单株夹数这三个因素的影响其依赖关系大致如回归方程所示。

吉林省大豆产业无论是与竞争性作物相比,还是与其他大豆主产区相比都存在一定的比较优势,发展前景广阔。

选种育种对于大豆产量的影响是明显的,采用科学的方法筛选出优质大豆既体现科学的严谨性的同时也使得农业产量科学性发展得以实现。

大豆产品是吉林省的重要发展支柱,建立大豆产品市场质量标准和自主品牌;加强政府对大豆产业的扶持;建立健全适应大豆产业化经营需要的社会化服务体系。

鼓励大豆产业发展,使之在带动吉林省农业可持续发展发挥科学示范作用。

参考资料中国统计网XX百科中华粮网数据中心

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2