数据挖掘在学生成绩数据管理中的应用研究的数学建模.docx
《数据挖掘在学生成绩数据管理中的应用研究的数学建模.docx》由会员分享,可在线阅读,更多相关《数据挖掘在学生成绩数据管理中的应用研究的数学建模.docx(21页珍藏版)》请在冰点文库上搜索。
数据挖掘在学生成绩数据管理中的应用研究的数学建模
数据挖掘在学生成绩数据管理中的应用研究的数学建模
摘要:
本文解决的是成绩评估问题,在未知所有考生的成绩信息的前提下,通过其余考生的成绩从而首先对整体数据进行补全。
并通过不同场次的考试成绩,从而对个人的考试成绩、整体班集体状况进行一个整体的评估。
最后班与班之间,在
(1)和
(2)的基础之上,再进行更进一步的分析,对班集体的整体成绩水平以及波动性进行更全面的了解和分析。
关键字:
均值、方差、成绩
1.问题重述
1.1问题背景
近年来,随着大数据成为互联网信息技术行业的流行词汇,教育逐渐被认为是大数据可以大有作为的一个重要应用领域,有人大胆地预测大数据将给教育带来革命性的变化。
在教育特别是在学校教育中,数据成为教学改进最为显著的指标。
通常,这些数据主要是指考试成绩。
现在,大数据分析已经被成功应用到教育中,成为教学改革的重要力量。
通过分析大数据,我们就能发现一些重要信息,并利用它们为改善学生的成绩提供个性化的服务。
我们收集了一些学生的考试成绩数据,请根据这些数据分析下面的问题。
1.2需要解决的问题
1)请问如何定量描述某位同学在最近几次考试中进步退步情况?
请建立相应的模型进行说明,并根据所建模型求出1班的每位同学在最近几次考试中进步或退步多少。
2)请问如何定量描述某班在最近几次考试中的进步退步情况?
请建立相应的模型进行说明,并根据所建模型求出每个班在最近几次考试中进步或退步多少。
3)请问如何通过最近七次考试定量描述一个班的整体学习成绩情况?
请建立相应的模型进行说明,并根据所建模型对6个班进行排序。
2.模型假设
假设1:
考生成绩真实有效,不存在作弊行为。
假设2:
考生成绩发挥稳定,能代表平时水平。
假设3:
改卷老师为同一群体老师改卷,能够确保尽量公平。
假设4:
考生每次考试之间间隔时间足够长,考生成绩具有一定的代表性。
3.符号说明
符号
符号说明
average1
取1班1考生其余成绩的平均值
average2
取1班2考生其余成绩的平均值
average3
取1班3考生其余成绩的平均值
average4
取1班4考生其余成绩的平均值
Average17
取1班17考生其余成绩的平均值
Average18
取1班18考生其余成绩的平均值
Average19
取1班19考生其余成绩的平均值
Average22
取1班22考生其余成绩的平均值
Average23
取1班23考生其余成绩的平均值
Average28
取1班28考生其余成绩的平均值
Average35
取1班35考生其余成绩的平均值
av1
1班1考生中前3次成绩的平均值
av1’
1班1考生中后四次成绩的平均值
...
...
av40
1班40考生中前3次成绩的平均值
av40’
1班40考生中前3次成绩的平均值
rate
后四次成绩相比前3次成绩的增长率
A1
1班第一次考试的平均成绩
A2
1班第二次考试的平均成绩
A3
1班第三次考试的平均成绩
A4
1班第四次考试的平均成绩
A5
1班第五次考试的平均成绩
A6
1班第六次考试的平均成绩
A7
1班第七次考试的平均成绩
4.问题分析与解答
针对问题1:
由于1班考生有3个考生在一次考生中出现缺考情况,因此采用其余6次考试成绩的均值代替该次缺考成绩。
而7次考试成绩拟采用分为2阶段成绩,前三次成绩取均值记作
后四次成绩记作
,并计算对应的增减幅度百分比。
有如下:
1班的缺考考生通过求取均值可为:
60.5、70.5、80.5、90.5、92、95、100、100、101、116。
此时,数据已经全部恢复。
如下表所示即可恢复后的1班考生数据,接下来通过分别求取前三次成绩以及后四次成绩的均值即可算出评价指标也就是目标函数rate。
序号
第一次考试成绩
第二次考试成绩
第三次考试成绩
第四次考试成绩
第五次考试成绩
第六次考试成绩
第七次考试成绩
1
60.5
54
67
60
70
50
62
2
70.5
64
77
70
80
60
72
3
80.5
74
87
80
90
70
82
4
90.5
84
97
90
100
80
92
5
53
49
43
49
62
44
59
6
70
73
69
72
78
79
73
7
71
75
76
61
73
63
62
8
74
73
70
83
66
68
64
9
75
67
70
65
67
85
78
10
75
78
68
68
80
75
74
11
77
70
71
71
76
68
80
12
82
92
84
86
82
81
85
13
82
92
87
81
76
83
84
14
86
80
0
87
88
93
77
15
87
96
81
90
84
96
78
16
91
100
82
95
99
86
98
17
91
91
82
92
100
98
90
18
93
95
96
99
103
96
83
19
94
88
100
85
93
102
87
20
95
85
98
100
85
96
87
21
96
89
86
105
86
99
90
22
97
107
107
92
95
103
100
23
98
100
99
89
101
106
105
24
98
104
101
102
107
90
93
25
98
100
108
89
105
89
108
26
98
100
101
98
103
97
90
27
99
94
94
108
90
89
96
28
99
99
101
106
107
101
95
29
106
112
102
113
102
106
108
30
106
105
99
103
97
104
102
31
109
117
105
115
116
111
113
32
110
101
117
113
110
112
116
33
112
114
102
118
122
116
114
34
112
110
116
111
107
112
119
35
112
120
113
116
118
119
115
36
113
117
120
117
114
120
112
37
113
104
105
120
106
120
119
38
113
120
114
118
107
118
106
39
114
108
120
114
120
104
116
如下为求取前三次平均值在matlab中的运算结果:
a=
60.500054.000067.0000
70.500064.000077.0000
80.500074.000087.0000
90.500084.000097.0000
53.000049.000043.0000
70.000073.000069.0000
71.000075.000076.0000
74.000073.000070.0000
75.000067.000070.0000
75.000078.000068.0000
77.000070.000071.0000
82.000092.000084.0000
82.000092.000087.0000
86.000080.00000
87.000096.000081.0000
91.0000100.000082.0000
91.000091.000082.0000
93.000095.000096.0000
94.000088.0000100.0000
95.000085.000098.0000
96.000089.000086.0000
97.0000107.0000107.0000
98.0000100.000099.0000
98.0000104.0000101.0000
98.0000100.0000108.0000
98.0000100.0000101.0000
99.000094.000094.0000
99.000099.0000101.0000
106.0000112.0000102.0000
106.0000105.000099.0000
109.0000117.0000105.0000
110.0000101.0000117.0000
112.0000114.0000102.0000
112.0000110.0000116.0000
112.0000120.0000113.0000
113.0000117.0000120.0000
113.0000104.0000105.0000
113.0000120.0000114.0000
114.0000108.0000120.0000
>>mean(a,2)
ans=
60.5000
70.5000
80.5000
90.5000
48.3333
70.6667
74.0000
72.3333
70.6667
73.6667
72.6667
86.0000
87.0000
55.3333
88.0000
91.0000
88.0000
94.6667
94.0000
92.6667
90.3333
103.6667
99.0000
101.0000
102.0000
99.6667
95.6667
99.6667
106.6667
103.3333
110.3333
109.3333
109.3333
112.6667
115.0000
116.6667
107.3333
115.6667
114.0000
同理将后四次的平均值求取为:
b=
60705062
70806072
80907082
901008092
49624459
72787973
61736362
83666864
65678578
68807574
71766880
86828185
81768384
87889377
90849678
95998698
921009890
991039683
859310287
100859687
105869990
9295103100
89101106105
1021079093
8910589108
981039790
108908996
10610710195
113102106108
10397104102
115116111113
113110112116
118122116114
111107112119
116118119115
117114120112
120106120119
118107118106
114120104116
>>
>>mean(b,2)
ans=
60.5000
70.5000
80.5000
90.5000
53.5000
75.5000
64.7500
70.2500
73.7500
74.2500
73.7500
83.5000
81.0000
86.2500
87.0000
94.5000
95.0000
95.2500
91.7500
92.0000
95.0000
97.5000
100.2500
98.0000
97.7500
97.0000
95.7500
102.2500
107.2500
101.5000
113.7500
112.7500
117.5000
112.2500
117.0000
115.7500
116.2500
112.2500
113.5000
通过以上2次运算得到2次大的考生成绩对比:
c=
60.500060.5000
70.500070.5000
80.500080.5000
90.500090.5000
48.333353.5000
70.666775.5000
74.000064.7500
72.333370.2500
70.666773.7500
73.666774.2500
72.666773.7500
86.000083.5000
87.000081.0000
55.333386.2500
88.000087.0000
91.000094.5000
88.000095.0000
94.666795.2500
94.000091.7500
92.666792.0000
90.333395.0000
103.666797.5000
99.0000100.2500
101.000098.0000
102.000097.7500
99.666797.0000
95.666795.7500
99.6667102.2500
106.6667107.2500
103.3333101.5000
110.3333113.7500
109.3333112.7500
109.3333117.5000
112.6667112.2500
115.0000117.0000
116.6667115.7500
107.3333116.2500
115.6667112.2500
114.0000113.5000
>>c(:
2)-c(:
1)
ans=
0
0
0
0
5.1667
4.8333
-9.2500
-2.0833
3.0833
0.5833
1.0833
-2.5000
-6.0000
30.9167
-1.0000
3.5000
7.0000
0.5833
-2.2500
-0.6667
4.6667
-6.1667
1.2500
-3.0000
-4.2500
-2.6667
0.0833
2.5833
0.5833
-1.8333
3.4167
3.4167
8.1667
-0.4167
2.0000
-0.9167
8.9167
-3.4167
-0.5000
>>d=[60.50
70.50
80.50
90.50
48.33335.1667
70.66674.8333
74-9.25
72.3333-2.0833
70.66673.0833
73.66670.5833
72.66671.0833
86-2.5
87-6
55.333330.9167
88-1
913.5
887
94.66670.5833
94-2.25
92.6667-0.6667
90.33334.6667
103.6667-6.1667
991.25
101-3
102-4.25
99.6667-2.6667
95.66670.0833
99.66672.5833
106.66670.5833
103.3333-1.8333
110.33333.4167
109.33333.4167
109.33338.1667
112.6667-0.4167
1152
116.6667-0.9167
107.33338.9167
115.6667-3.4167
114-0.5
]
d=
60.50000
70.50000
80.50000
90.50000
48.33335.1667
70.66674.8333
74.0000-9.2500
72.3333-2.0833
70.66673.0833
73.66670.5833
72.66671.0833
86.0000-2.5000
87.0000-6.0000
55.333330.9167
88.0000-1.0000
91.00003.5000
88.00007.0000
94.66670.5833
94.0000-2.2500
92.6667-0.6667
90.33334.6667
103.6667-6.1667
99.00001.2500
101.0000-3.0000
102.0000-4.2500
99.6667-2.6667
95.66670.0833
99.66672.5833
106.66670.5833
103.3333-1.8333
110.33333.4167
109.33333.4167
109.33338.1667
112.6667-0.4167
115.00002.0000
116.6667-0.9167
107.33338.9167
115.6667-3.4167
114.0000-0.5000
d(:
2)/(d(:
1))
0
0
0
0
0.0443
0.0414
-0.0793
-0.0179
0.0264
0.0050
0.0093
-0.0214
-0.0514
0.2650
-0.0086
0.0300
0.0600
0.0050
-0.0193
-0.0057
0.0400
-0.0529
0.0107
-0.0257
-0.0364
-0.0229
0.0007
0.0221
0.0050
-0.0157
0.0293
0.0293
0.0700
-0.0036
0.0171
-0.0079
0.0764
-0.0293
-0.0043
如上所示即为1班所有考生的进步率,正值代表进步,而负值代表退步。
数值越大表示进步或者退步的幅度越大。
针对问题2分析:
题目要求我们定量描述某班在最近几次考试中的进步退步情况,那么我们可以依旧取1班的成绩情况为例进行数据分析。
可以取得1班每次考试成绩的值分别为:
A1=92.33、A2=92.33、A3=90.13、A4=93.10、A5=93.97、A6=92.03、A7=91.90。
若仍然采用1中所述方法,则为
本模型较为简易,通过每次考试的均值来对整体考试波动情况进行评估。
经计算为0.013。
为1班考生在7次考试中的整体增幅。
整体分析而言成绩是有进步。
针对问题3分析:
本题需要对最近七次考试定量描述一个班的整体学习成绩情况,那么可以求取每个班集体的均值和方差,并相互之间做一个比较,从而得出每个班集体的成绩的总体情况:
先以一班为例计算,
(2)中已经对其均值做了分析。
当然
(2)是在
(1)的基础上进行完善的,那么此时可以把1班的方差也求取:
将1班数据导入matlab计算得出方差为1.0948。
同理也分别求取2,3,4,5,6班的均值和方差。
同理1班,其余5班依次通过
(1)和
(2)的过程,可分别得到2班同学成绩均值和方差分别为:
87.82、1.315,3班同学成绩均值和方差为:
88.54、2.8788,而4班同学成绩均值和方差分别为:
87.89、1.3336,而5班同学成绩均值和方差为:
86.95、1.5977,而6班同学成绩的均值和方差分别为:
92.79、1.3735。
以上将各个班集体7次考试成绩的平均值以及方差波动数据均以获得。
从均值角度来看,6班好于1班好于3班好于4班好于2班好于5班。
若从方差稳定性来看:
则1班好于2班好于4班好于6班好于5班好于3班。
综合来说,(3)中的数据获取以及分析源自于
(1)、
(2),暂时还没有想到一个综合参数可以将均值和方差进行加权值。
从而综合对各个班的成绩情况进行判定。