竞赛网评结果的评价与分析精选.docx

资源描述

竞赛网评结果的评价与分析精选.docx

《竞赛网评结果的评价与分析精选.docx》由会员分享，可在线阅读，更多相关《竞赛网评结果的评价与分析精选.docx（17页珍藏版）》请在冰点文库上搜索。

竞赛网评结果的评价与分析精选.docx

竞赛网评结果的评价与分析精选

2015江西财经大学数学建模竞赛

（B题）

竞赛网评结果的评价与分析

参赛队员:

参赛队编号：

2015年5月22日~5月27日

2015江西财经大学数学建模竞赛

承诺书

我们仔细阅读了江西财经大学数学建模竞赛的竞赛章程。

我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人研究、讨论与赛题有关的问题。

我们知道，抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。

如有违反竞赛规则的行为，我们将受到严肃处理。

我们参赛选择的题号是（从A/B/C中选择一项填写）：

我们的参赛队编号为

参赛队员（打印并签名）：

队员1.姓名专业班级

队员2.姓名专业班级

队员3.姓名专业班级

日期：

2015年5月27日

2015江西财经大学数学建模竞赛

编号和阅卷专用页

参赛队编号：

2015011

参赛队员填写

参赛队

员姓名

所有数学类与计算机类课程成绩

（意愿参加全国竞赛者填写）

是否选修建模课程

是否愿参加全国竞赛

在校获

奖项目

阅卷填写，参赛者不得填写

评分（百分制）

评阅人

最终得分

小组评价负责人

阅卷

专家

评语

备注

1、是否选修数学建模：

指本学期是否选修了数学建模课程

2、是否有意愿参加全国竞赛：

指参加今年的全国大学生数学建模竞赛，一经选定，不得退赛，否则将建议学生所在学院给予处分。

培训时间：

2013年8月5日开始。

江西财经大学数学建模竞赛组委会

2015年5月15日制定

竞赛网评结果的评价与分析

摘要

合理地评价竞赛成绩是一个重要的教育问题，本文定量分析了竞赛的网评结果与最终成绩间的相关性，建立了能合理度量评委基本素质的指标体系，同时还比较了不同题目的评委之间的整体差异。

由于数据文件给出的是网评成绩的原始分，因此需要先将其换算成标准分。

为便于解答问题，本文使用Matlab将原数据按照评委序号而非论文序号归类进行排列。

对于问题一，虽然文件未给出最终成绩的绝对分数，但是可以用转化为虚拟变量的获奖名次作为最终分数的代理变量。

利用有序多分类的Logistic回归，对网评标准分总分与获奖名次进行相关性分析，SPSS的回归结果表明网评成绩与最终成绩间有显著的正相关性。

对于问题二，本文从两个方面来度量评委的基本素质：

（1）同一评委对不同论文打分的方差大则说明此评委基本素质高；

（2）同一篇论文，单个评委的评分与评委组的评分均值间的偏差的方差小，则说明此评委基本素质高。

当两个指标以相除的方式结合起来时，形成指标体系，指标得分越高则评委素质越高。

将其用于附件的评审数据，即可解决问题三。

以A附件为例，14个评委的指标得分出现了显著的断面差异。

对于问题四，本文先计算每题中每个评委所有评分的方差，用此方差序列表示该组评委的整体状况。

再将ABCDE组的方差进行比较，利用多因素方差分析，判断不同题目的评委的整体表现是否存在显著性差异。

结果表明，各组评委的整体表现并没有显著差异。

对于问题五，考虑到网评是将论文随机分配给评委的，而评分在某种程度上也属于随机事件，因此可以从网评分数中抽取前3个评委的分数，组成含3个评委分数的“虚拟分数”，用此分数代表不加入网评成绩的总成绩；如果加入网评成绩，则与网评的4个评委分数一起，组成含7个评委分数的“虚拟分数”，用此分数代表加入网评成绩的总成绩。

加入网评成绩后，单篇论文由3个评委打分转变为7个评委打分，这样改变了单篇论文得分的“组内方差”，同时也改变了每题中论文总成绩之间的方差，即“组间方差”。

借助这种构造方法，本文认为，加入网评成绩会降低组内方差，提高成绩的可靠性，但同时也会降低组间方差，给区分名次造成困难，但权衡考虑，加入网评成绩的利大于弊。

关键字：

Logit模型方差分析虚拟变量评审方式比较

1、问题重述

某竞赛的评阅过程分为网评阶段与集中评审阶段。

在网评阶段，竞赛论文被随机平均分配给每位评委，每份竞赛论文由四位评委评阅，按照标准分总分排序，前55%的论文进入集中评审。

集中评审阶段每份论文由三位评委按“百分制”独立评审，换算成标准分后将每份论文的三个标准分与网评中该论文的平均标准分一起求平均分，即为该论文的最终成绩。

请完成以下建模任务：

1、网评成绩与最终成绩的相关性，并对网评结果作出评价。

2、给出合理的度量评委基本素质的指标体系。

3、建立评价评委基本素质的数学模型，并将其运用于附件中的评审数据

4、试分析不同题目的评委的整体表现之间是否存在显著差异？

如果存在，分析出现差异的可能原因。

5、试分析将网评成绩加入总成绩的利弊，并对如何更有效地利用网评成绩给出建模结论。

2、问题分析

这是一个评价问题，要求对评委素质和审核机制进行评价分析。

在处理问题之前，要注意到文件所给数据是按照论文序号进行排列的，而所涉及的问题却集中在评委上，并且标准分的计算公式中，平均分是以评委所评阅的所有论文的平均分，而非同一论文四个评委的平均分，因此需要制作一份将数据按照评委序号来排列的文件，这样方便计算每篇论文的标准分总分和每个评委给的所有评分。

2.1问题一

可以利用回归分析，由于文件并未给出最终成绩的绝对分数，仅给出最终名次，因此只能建立以虚拟变量为因变量的模型。

本文选择较为常见的有序多分类的Logistic模型，把一等奖到无奖分别对应3、2、1、0。

在解答问题前，要先进行数据预处理，即利用每个评委给每篇论文的标准分，制作一份将论文号与标准分总分对应的文件，将其导入SPSS，即可得出结果。

2.2问题二

需要利用每个评委所打出的所有评分数据。

根据常识容易得出：

（1）同一评委对不同论文打分的方差大则说明此评委有鉴别能力，即基本素质高；

（2）同一篇论文，单个评委的评分与评委组的评分均值间的偏差的方差小，则说明此评委的意见是主流意见，即基本素质高。

利用这两种方差的商构造指标体系，将其应用与附件，即可得出每个评委的指标值，进而解答问题三。

2.3问题四

需要比较不同题目的评委间整体表现的差异，本文将这种差异理解为评委打分方差序列间是否存在显著性差异，这个方差序列是指：

同一题目中，某一评委对所有评阅的论文的评分方差，所有评委的方差组成一个序列，通过比较不同题目的方差序列来比较不同题目评委的整体表现。

可以借助SPSS进行方差分析，得出方差序列间的差异是否显著。

2.4问题五

原本可以通过比较不加入与加入网评成绩算出的最终分数之间的方差差异来评价加入网评成绩的利弊，然而问题在于文件并未给出集中评审的绝对分数，因此无法知道集中评审的分数。

但考虑到网评是将论文随机分配给评委的，而评分在某种程度上也属于随机事件，因此可以选取网评标准分总分前55%论文的前三位评委的评审数据，用其平均标准分来模拟不加入网评成绩的总成绩。

这样带来两方面的影响：

1、加入网评成绩后，单篇论文由3个评委打分转变为7个评委打分，这样改变了单篇论文得分的方差，本文称其为“组内方差”；

2、进入集中评审的195篇论文，每篇论文的总成绩之间会有方差的变化，本文称其为“组间方差”。

通过比较两种方差的前后变化，即可解答问题五。

3、模型假设

1、评委在评审时是相互独立的；

2、评委评分是一种随机事件；

3、评委能公正合理地给出评分，不会打出异常分数；

4、每个评委打分服从正态分布。

4、符号说明

表1

符号

定义

第k号论文的第j号评委打出的原始分

由

换算出的的标准分

第j号评委所评阅的所有论文的平均分

第j号评委所评阅的所有论文评分的方差

第i题的k号论文的组内方差

虚拟变量，第k号论文最终名次

第k号论文的组间方差

第j号评委与第k号论文组平均分的偏差

第k号论文评委组的组内标准分均值

第j号评委偏差的方差

5、模型建立与求解

5.1模型一：

有序多分类Logit模型

对于因变量水平数大于2时，就不能简单的将其中两个水平单独拟合二分类的Logistic回归，而必须考虑拟合因变量为多分类的Logit模型。

如果因变量是有序的，则采用有序多分类Logistic回归。

以n水平的因变量为例，假设应拟合n-1个Logit模型，假设n个取值水平的概率分别为

...

，对一个自变量x拟合n-1个方程如下：

（1）

（2）

......

（n-1）

与二分类Logistic回归相比，进行Logit变换的分别为

和

，即因变量有序取值水平的累积概率。

Logit模型的估计方法属于非线性回归，幸运的是，SPSS软件能够提供有序多分类Logistic回归。

5.2模型二：

评委基本素质评价模型

根据题目，标准分的计算公式如下：

此公式中

即为评价指标体系中的第一项，是同一评委对不同论文打分的方差大小，与评委鉴别能力正相关。

指标体系的另一项为“同一篇论文，单个评委的评分与评委组的评分均值间的偏差的方差”，首先计算出每篇论文的评委组的评分均值，再求组内每个评委与该组评分均值的差。

随后按评委序号进行排列，每个评委对他所评的每篇论文均有一个偏差，求这些偏差的方差，即可得到指标体系的第二项值。

偏差的计算公式如下，值得注意的是，这里使用的评分均为标准分，且计算方差是按样本方差的计算公式进行的，再将偏差计算得到偏差的方差

，它与评委基本素质是负相关的。

为符合直观印象，将

作为总体指标，两者相除的商与评委基本素质是正相关的，即商值越大，评委基本素质越高。

5.3模型三：

F统计量

要比较不同样本间是否有显著性差异，可以利用方差分析。

由于所需要比较的附件超过两个，因此适用多因素方差分析。

多因素方差分析使用F检验，其零假设为多个控制变量的不同水平下，各总体均值没有显著差异。

F统计量的计算公式为：

其中S表示样本方差。

对于本题，如果以附件A的评委方差为随机变量，则BCDE的评委方差即为4个控制变量。

以上F统计量服从F分布，SPSS将自动计算F值，如果计算得到的相伴概率值小于显著性水平，则拒绝零假设，即表明数据间存在显著差异。

5.4问题一

以附件A为例，先将数据整理为按评委序号排列的形式，如图1，再计算标准分。

图1附件A部分标准分示例

将数据导入SPSS，数据含两列，一列为网评标准分总分，另一列为名次，本题的因变量为名次，有四个水平：

无奖、三等奖、二等奖、一等奖，分别取值0、1、2、3，如图2所示。

则本题的多分类的Logit模型应含三个回归方程。

而自变量为网评总标准分，故自变量只有一个。

图2网评总标准分与最终名次

SPSS的回归结果如表2所示，在1%显著性水平上可以认为网评成绩与最终成绩间有相关性，且为正相关。

表2

系数（常数项）

标准误

P值

无名次

32.164

2.710

0.000

第三名

34.233

2.808

0.000

第二名

37.162

2.973

0.000

分数

0.130

0.011

0.000

5.5问题二与问题三

模型二即为问题二的解答，列出如下：

素质指标=

将指标应用与附件A，计算出指标值。

如下图3所示，可以看出，评委A10到A09的素质低于评委A07到A12。

把此指标已用于其他四个附件，同样可以得出评委间的基本素质情况。

图3附件A所有评委基本素质得分

5.6问题四

对ABCDE附件计算评委方差序列，图4展示了部分AC附件的评委方差序列。

本文使用的F统计量，不仅可以比较多因素间的差异，还可以作为单因素方差分析的工具。

为便于计算，在不影响结果的情况下，本文只计算了A和C附件的评委方差序列间是否存在显著性差异，这与比较A~E的显著性差异在结果上并没有太大区别。

将AC的评委方差序列输入SPSS，检验结果如表3所示。

图4附件AC评委个人方差

从表3可以看出，两组间的差异并不显著。

因此，可以认为，各组评委的整体表现之间并没有显著差异，说明竞赛组织者较为均衡地分配了评委，没有让不同题目的评委之间出现太大的差异。

表3

SumofSquares

MeanSquare

Sig.

BetweenGroups

6326.449

0.360

0.553

WithinGroups

562128.051

17566.502

Total

568454.500

5.7问题五

按照问题分析中的方法，首先需要选出网评总分在前55%的论文。

以A题为例，共355篇论文，取55%即取195篇。

由于评委打分相当于独立随机事件，因此从网评分数中抽取前3个分数，组成含3个评委分数的“虚拟分数”，用此分数代表不加入网评成绩的总成绩；如果加入网评成绩，则与网评的4个评委分数一起，组成含7个评委分数的“虚拟分数”，用此分数代表加入网评成绩的总成绩。

这样带来两方面的影响：

1、加入网评成绩后，单篇论文由3个评委打分转变为7个评委打分，这样改变了单篇论文得分的方差，本文称其为“组内方差”；

2、进入集中评审的195篇论文，每篇论文的总成绩之间会有方差的变化，本文称其为“组间方差”。

以A题数据为例，计算这两种方差，组内方差共195组，加入网评成绩的前后对比图如图5所示。

可以清楚地看到，组内方差是减小了的。

这样就使得单篇论文的分数更具有可靠性、更稳定。

从这点来看，加入网评成绩有利于得出稳妥、公正的竞赛成绩。

图5附件A网评成绩对单篇论文的影响

组间方差前后各一组，经计算，不加网评成绩时，组间方差为14.94，加入网评成绩后，组间方差减少至11.84。

由于方差减少，使得不同论文间的差别降低了，按照评价评委基本素质的模型，不同论文间的方差减少，是不利于鉴别出优良中劣的。

因此，从这个方面看，加入网评成绩可能会使得名次的的判定更困难。

一般认为，进入集中评审的论文应当都是比较优秀的，优秀论文之间的差距减少是合乎常理的。

因此，组内方差应该是比组间方差更重要的指标，所以，总体来看，加入网评成绩的利大于弊。

但是，本文在这里的处理方法有些缺陷：

由于重复使用网评成绩来构造“虚拟”总成绩，会破坏评委评分的独立性条件，也就是说，本文的处理方法相当于默认网评的评委同时也是集中评审的评委。

如果在实际操作中，竞赛组织者确实是从网评评委中选派集中评审评委，那么这种构造方法就是合理的。

6、评价与应用

本文模型的优点：

1、尽量使用定量分析代替定性分析，特别是在最终成绩的绝对分数未知的情况下，将获奖名次数值化，从而得出网评成绩与总成绩之间的相关性；

2、在构建评委素质的评价指标时，全面地利用了已知数据，得出了符合常理的结论；

3、在集中评审分数未知的情况下，利用评委打分是独立随机事件这一特点，将网评成绩改造成虚拟的集中评审成绩，从而模拟出加入和不加入网评成绩的过程，从而避免了主观分析。

本文模型的缺点：

1、在使用网评成绩构造虚拟总成绩时，由于重复使用了评委数据，破坏了打分的独立性，但考虑到集中评审评委很可能会从网评评委中选拔，因此此缺点并不是很致命；

2、在比较不同题目评委之间的整体差异时，仅考虑了评委评分方差序列之间的差异，而没有从其他角度进行比较。

参考文献

[1]杰弗里·M.伍德里奇.计量经济学导论：

现代观点[M].北京：

清华大学出版社，2009.

[2]余敏，刘修生.概率论与数理统计[M].武汉：

华中科技大学出版社，2006.

[3]何晓群，多元统计分析[M].北京：

中国人名大学出版社，2004.

[4]张文彤，SPSS统计分析高级教程[M].北京：

高等教育出版社，2007.

[5]王娴，张炜吉，章先鸣，关于某竞赛网评结果的建模与分析[EB/OL].2013.

附录

附录一对第一组评委进行排序的matlab程序

B=zeros（355,3）;%定义存储矩阵B

n=2;m=2;b=2;i=2;

B（1,1）=A（1,i）;%将A中第一个值加入B

B（1,2）=A（1,1）;

B（1,3）=A（1,i+1）;

while（b<356）%单独为第一个值生成一次序列

ifA（1,i）==A（b,i）

B（m,1）=A（b,i）;

B（m,2）=A（b,1）;

B（m,3）=A（b,i+1）;

m=m+1;

end

b=b+1;

end

while（n<356）

t=0;

fora=1:

n-1%计算不同值的个数

ifA（n-a,i）~=A（n,i）

t=t+1;

end

ift==n-1&&n<355%非最后一个且与前值均不同

B（m,1）=A（n,i）;%先把此新序列的第一项写入B

B（m,2）=A（n,1）;

B（m,3）=A（n,i+1）;

m=m+1;

j=n+1;%从紧挨着新n值的下一个开始生成后续序列

while（j<356）

ifA（n,i）==A（j,i）

B（m,1）=A（j,i）;

B（m,2）=A（j,1）;

B（m,3）=A（j,i+1）;

m=m+1;

end

j=j+1;

end

elseift==n-1&&n==355%最后一个且与前值均不同时

B（m,1）=A（355,i）;

B（m,2）=A（355,1）;

B（m,3）=A（355,i+1）;

m=m+1;

end

n=n+1;

end

最新文件仅供参考已改成word文本。

方便更改

展开阅读全文